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本 书 是 关于 形式 语言 、 自 动机 理论 和 计算 复杂 性 方面 的 经 典 之 作 ， 是 国际 上 得 到 广泛 
认可 的 计算 机 理论 和 计算 机 王 程 专业 的 优秀 教材 。 书 中 涵盖 了 有 穷 自动 机 、 正 则 表达 式 与 
语言 、 正 则 语言 的 性 质 ， 土 下 文 无 美文 法 及 上 下 文 无 关 语 言 、 下 推 自动 机 、 上 下 文 无 关 语 
言 的 性 质 、 图 灵机 、 不 可 判定 性 以 及 难 解 问题 等 内 容 。 本 书 注重 定义 定理 的 准确 性 和 严 
格 性 ,注重 学 生 形式 化 和 严 烙 的 数学 推理 能 力 的 培养 ， 同 时 在 定义 和 证 明 中 运用 直观 的 方 
法 说 明 抽象 概念 借助 许 多 图 表 帮 助 传达 思想 ， 并 包含 大 量 难度 各 异 的 示例 和 习题 ， 便于 
读者 加 深 对 内 容 的 理解 。 

本 书 适合 作为 计算 机 专业 高 年 级 本 科 生 及 研究 生计 算 理论 课程 的 教材 和 教学 参考 书 . 
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出 版 者 的 话 | 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 荃 断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 匡 出 、 独 领 风 又 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 邦 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因此， 引进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 分 社 较 旱 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 华 章 分 社 就 
将 工作 重点 放 在 了 遵 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 多 努力 ， 我 们 与 Pearson ， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 
的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L: Hennessy, Larry 
工 . Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 所 力 襄 助 ， 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 思 今 ,“ 计 算 机 科学 丛书” 已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 箱 。 
其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建设 的 不 断 完善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 分 社 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 ，wwwhzbogkom 
FEB, hzedu@hzbook.com 
联系 电话 ，(010) 68995264 
RRB LATA TTA AMI 华章 教育 
邮政 编码 ，100037 华章 科技 图 书 出 版 中 心 
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理论 计算 机 科学 是 推动 计算 机 技术 向 前 发 展 的 强大 动力 。 自 动机 、 形 式 语言 、 可 计算 性 和 
相关 方面 内 容 构成 的 计算 理论 ， 是 理论 计算 机 科学 的 基础 内 容 之 一 。 学 习 、 研 究 这 些 内 容 ， 不 
仅 为 进一步 学 习 、 研 究 理论 计算 机 科学 所 必需 ， 而 且 对 增强 形式 化 能 力 和 推理 能 力 有 重要 作用 ， 
这 些 能 力 对 从 事 计 算 机 技术 中 的 软件 形式 化 等 研究 ， 是 不 可 缺少 的 。 

本 书 是 由 John E. Hopcroft, Rajeev Motwani 和 Jeffrey D. Ullman 三 位 计算 机 学 者 合作 编写 的 ， 
是 最 著名 的 理论 计算 机 科学 著作 之 一 ， 是 世界 各 国 广泛 采用 的 计算 机 理论 专业 和 计算 计 工 程 专 
业 的 优秀 教材 之 一 。 它 主要 介绍 形式 语言 、 自 动机 、 可 计算 性 和 相关 方面 内 容 。 它 特别 注意 定 
义 、 定 理 的 准确 性 和 严格 性 ， 这 有 利于 培养 学 生 形式 化 和 严格 的 数学 推理 的 能 力 。 本 书 第 1 版 于 
1979 年 发 行 。 它 的 第 3 版 有 一 个 新 的 特色 ， 那 就 是 增加 了 一 套 由 Gradiance 公 司 开发 的 在 线 作业 业 
助 系统 。 教 师 可 以 利用 它 给 学 生 安 排 课 后 作业 ， 或 者 给 那些 没有 选课 的 学 生 提 供 一 个 特殊 的 综 
合 课程 (不 是 由 老师 申请 开设 的 课程 )， 使 得 他 们 可 以 利用 这 些 课 后 作业 作为 练习 和 指导 。 然 而 
遗属 的 是 ，Gradiance 在 线 作业 系统 只 适用 于 购买 原版 教材 的 北美 地 区 学 生 ， 中 国学 生还 不 能 使 
用 这 个 系统 ， 因 此 ， 我 们 在 翻译 第 3 版 的 过 程 中 ， 对 涉及 Gradiance 系 统 的 内 容 进 行 了 删 减 。 

引进 国外 的 优秀 计算 机 教材 ， 无 疑 会 对 我 国 的 计算 机 教育 事业 的 发 展 起 积极 推动 作用 ， 也 
是 与 世界 接轨 、 建 立 世界 一 流 大 学 不 可 缺少 的 条 件 。 我 们 把 本 书 介绍 给 国内 从 事 计 算 机 教育 事 
业 的 同行 们 ， 以 供 参考 。 

这 个 译本 是 根据 原 书 第 3 版 翻译 的 。 参 加 本 书 翻 译 的 有 孙 家 观 同 志 ， 负 责 各 章 译 稿 的 详细 
修改 和 全 书 的 统 稿 ， 刘 明 浩 同志 ， 负 责 第 1 ~3 章 及 前 言 、 目 录 的 翻译 ， 孙 自然 同志 ， 负 责 第 4、 
5 章 的 翻译 ， 王 哺 只 同志， 负责 第 6、7 章 的 翻译 ， 王 华 同 志 ， 负 责 第 8、9 章 的 翻译 ， 侯 婧 如 同志 ， 
负责 第 10、11 章 及 索引 的 盘 译 。 为 了 与 本 书 第 ?版 中 译本 用 的 名 词 、 术 语 保持 统一 ， 在 翻译 过 程 
中 我 们 参考 了 由 刘 田 、 姜 晖 和 王 捍 贫 同 志 完 成 的 本 书 第 2 版 中 译本 。 

由 于 我 们 的 能 力 有 限 ， 难 免 有 不 当 之 处 ， 敬 请 读者 不 吝 赐 教 。 
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在 本 书 1979 年 出 版 的 前 一 版 的 前 言 中 ，Hoperoftr 和 Ulman 对 于 下 面 的 事实 感到 售 诈 不 已 : 与 
1969 年 他 们 写 第 一 本 书 时 的 情形 相 比 ， 自 动机 这 一 专题 已 经 有 了 突破 性 地 发 展 。 的 确 ，1979 年 
版 的 书 中 包含 许多 在 以 前 的 著作 中 找 不 到 的 主题 ， 篇 幅 增加 了 大 约 一 倍 。 如 果 读 者 有 兴趣 把 本 
书 与 1979 年 版 的 那 本 书 做 个 比较 就 会 发 现 ， 正 如 20 握 纪 70 年 代 的 汽车 那样 ， 本 书 是 “外 看 大 ， 
内 看 小 "。 这 表面 看 起 来 像 是 退步 ， 但 是 我 们 有 理由 对 此 变化 感到 高 兴 。 

首先 ， 在 1979 年 ， 自 动机 和 语言 理论 还 是 一 个 比较 活跃 的 研究 领域 那 本 书 的 主要 目的 是 
鼓励 擅长 数学 的 学 生 为 这 个 领域 做 出 新 的 贡献 。 然 而 今天 ， 直 接 针对 自动 机 理论 的 研究 几乎 已 
经 销声匿迹 相反， 更 多 的 是 对 其 应 用 的 研究 ) ， 因 此 也 就 没有 理由 继续 保持 1979 年 那 本 书 的 简 
洁 和 高 度数 学 化 的 风格 。 

其 次 ， 在 过 去 的 20 年 里 ， 自 动机 和 语言 理论 的 角色 已 经 发 生 了 很 大 的 变化 。 在 1979 年 ， 自 
动机 还 主要 是 研究 生 水 平 的 专题 ， 那 时 我 们 假定 的 读者 是 高 年 级 研究 生 ， 特 别 是 使 用 这 本 书后 
儿 章 的 那些 读者 。 然 而 到 了 今天 ， 它 已 经 成 为 本 科 生 课程 的 主要 内 容 。 正 是 基于 这 个 原因 ， 本 
书 在 编排 时 必须 假定 对 于 读者 只 有 很 少 的 预备 知识 的 要 求 ， 因 此 必须 比 前 一 版 本 的 书 提供 更 多 
的 背景 知识 介绍 和 论证 的 细节 。 

环境 的 第 三 个 变化 是 ， 计 算 机 科学 在 过 去 的 30 年 里 已 经 发 展 到 了 几乎 无 法 起 像 的 程度 。 在 
1979 年 ， 我 们 觉得 可 能 会 经 受 得 起 下 一 轮 技术 考验 的 材料 太 少 了 ， 以 致 于 排 满 课程 计划 都 很 
难 ， 然 而 今天 ， 却 有 非常 多 的 子 科 目 在 竞争 本 科 生 课程 的 有 限 空间 。 

第 四 ， 计 算 机 科学 如 今 已 经 发 展 成 为 更 加 职业 化 的 科目 ， 在 许多 学 习 它 的 学 生 中 存在 着 严 
重 的 实用 主义 倾向 。 但 我 们 仍然 相信 ， 自 动机 理论 的 方方面面 是 各 种 新 兴学 科 的 重要 工具 ， 并 
且 我 们 相信 ， 无 论 学 生 多 么 倾向 于 只 去 学 习 那些 最 能 直接 赚钱 的 技术 ， 但 在 典型 的 自动 机 课程 
中 ， 那 些 理论 的 和 有 利于 拓宽 思维 的 习题 依然 可 以 保持 其 价值 。 然 而 ， 为 了 保证 这 个 科目 在 计 
算 机 科学 专业 学 生 的 课程 表 中 继续 占有 一 席 之 地 ， 我 们 相信 有 必要 在 强调 数学 理论 的 同时 也 强 
调 应 用 。 因 此 ， 我 们 把 上 一 版 中 许多 比较 深奥 的 主题 换 成 了 今天 如 何 使 用 这 些 思想 的 例子 。 虽 
然 自动 机 和 语言 理论 在 众多 编译 器 上 的 应 用 如 今 已 经 广为人知 ， 以 至 于 这 些 内 容 通常 已 经 包含 
在 介绍 编译 技术 的 课程 中 ， 但 是 还 存在 一 些 较 新 的 用 途 ， 包 括 用 来 验证 协议 的 模型 验证 算法 以 
及 采用 与 上 下 文 无 关 文 法 的 模式 的 文本 描述 语言 等 ， 本 书 对 此 进行 了 补充 说 明 。 

对 于 本 书 内 容 增 减 的 最 后 一 项 解释 是 ， 如 今 我 们 能 够 充分 利用 Don Knuth 和 Les Lamport 开 发 
的 TEX 和 LATEX 排 版 系统 的 优点 。 特 别 是 后 一 种 系统 ， 它 鼓励 “开放 ” 式 的 排版 ， 让 书籍 篇 幅 
更 大 ,但 更 容易 阅读 。 感 谢 这 两 个 人 的 努力 为 本 书 出 版 发 行 作出 的 贡献 。 


本 书 用 法 
本 书 适合 于 本 科 三 年 级 以 上 学 生 的 一 季度 或 一 学 期 的 课程 。 在 斯 坦 福 大 学 ， 我 们 把 这 份 讲 


VI 


义 用 在 CS154 课 程 中 ， 这 是 自动 机 和 语言 理论 的 课程 。 这 是 门 一 季度 的 课程 ，Rajeev 和 Jeffrey 都 
曾经 教 过 。 由 于 授课 时 间 有 限 ， 第 11 章 不 包括 在 授课 范围 以 内 ， 后 面 一 些 材料 〈 比 如 较 难 的 10.4 
节 中 的 多 项 式 时 间 归 约 等 内 容 ) 也 都 省 略 了 。 本 书 的 网 站 (参见 下 面 ) 包括 CS154 课 程 的 笔记 和 
教学 大 纲 等 材料 。 

几 年 前 我 们 发 现 ， 许 多 进入 斯 坦 福 大 学 的 研究 生 都 学 过 一 门 不 包括 难 解 性 理论 的 自动 机 理 
论 课程 。 由 于 斯 坦 福 大 学 的 全 体 教员 相信 ， 对 于 每 一 位 计算 机 科学 家 来 说 ， 仅 仅 停留 在 知道 
“NP 完全 意味 着 需要 花费 很 长 时 间 ” 这 一 层面 是 远 远 不 够 的 ， 充 分 了 解 这 些 思想 是 十 分 必要 的 ， 
所 以 就 有 了 另外 一 门 课程 CS154N， 选 这 个 课 的 学 生 可 以 只 学 习 第 8、9 和 和 10 章 。 他 们 实际 上 学 习 
CS154 课 程 大 约 后 三 分 之 一 部 分 的 内 容 ， 由 此 来 满足 CS154N 课 程 的 要 求 。 即 使 在 今天 ， 我 们 仍 
然 发 现 ， 每 个 季度 都 有 一 些 学生 采 取 这 种 优化 的 课程 选项 。 由 于 这 样 做 几乎 不 需要 额外 的 努力 ， 
所 以 我 们 推荐 使 用 这 种 方法 。 


预备 知识 


为 了 最 好 地 使 用 本 书 ， 读 者 应 当 在 这 以 前 学 过 一 门 关 于 离散 数学 (如 图 、 树 : 逻辑、 证 明 
技巧 等 ) 的 课程 。 我 们 还 假设 读者 学 过 一 些 有 关 程 序 设计 的 课程 ， 熟 悉 常见 的 数据 结构 、 逆 归 
和 主要 系统 组 件 〈 如 编译 器 ) 的 作用 等 。 这 些 预备 知识 一 般 应 当 包含 在 大 学 一 、 二 年 级 计算 机 
科学 课程 计划 中 。 


习题 


本 书 中 包含 大 量 的 习题 ， 几 乎 每 个 章节 都 有 。 我 们 将 较 难 的 习题 或 其 中 的 某 一 部 分 用 单个 
吧 号 标 出 ， 最 难 的 则 用 两 个 叹 号 标 出 。 

某 些 习题 或 其 中 的 某 一 部 分 标 有 星 号 。 对 于 这 部 分 习题 ， 其 解答 方法 可 以 通过 本 书 的 网 页 
获得 。 这 些 解答 可 以 公开 获得 ， 只 限于 进行 自我 检查 。 需 要 注意 的 一 点 是 ， 在 少数 情况 下 ， 习 
题 B 要 求 修改 或 改编 对 另 一 个 习题 A 的 解答 。 如 果 A 的 某 些 部 分 有 解答 ， 那 么 你 就 应 当 预 期 B 的 
对 应 部 分 也 应 当 有 解答 。 


Gradiance 在 线 作业 。 


本 书 第 3 版 有 一 个 新 的 特色 ， 即 增加 了 一 套 由 Gradiance 公 司 开发 的 在 线 作业 伴随 系统 。 教 师 
可 以 利用 它 给 学 生 安排 课 后 作业 ， 或 者 给 那些 没有 选课 的 学 生 提 供 一 个 特殊 的 综合 课程 (不 是 
由 老师 申请 开设 的 课程 )， 使 得 他 们 可 以 利用 这 些 课 后 作业 作为 练习 和 指导 。Gradiance 系 统 所 提 
供 的 问题 和 普通 问题 的 形式 一 样 ， 但 会 对 你 提交 的 解决 方案 进行 检查 。 如 果 你 提交 的 答案 不 正 
确 ， 系 统 将 会 提供 一 些 针对 性 的 建议 或 反馈 意见 ， 以 帮助 纠正 你 的 解决 方案 。 只 要 你 的 老师 允 
许 ， 就 可 以 重复 尝试 ， 直 到 达到 一 个 满意 的 分 数 为 止 。 

所 有 在 北美 地 区 购买 这 本 书 第 3 版 的 读者 ， 都 将 自动 获得 这 项 Gradiance 在 线 作业 服务 的 授权 。 
更 多 的 信息 ， 请 访问 Addison-Wesley 网 站 wwwaw.com/gradiance 或 者 发 邮件 给 computing@aw.com 。 





日 Gmdiance 系 统 对 中 国学 生 不 适用 ， 因 此 第 3 版 翻译 中 出 除了 有 关 寺 系统 的 内 容 ， 一 编者 注 
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万 维 网 上 的 支持 


本 书 的 主页 是 

http://www-db.stanford.edu/~ullman/iale html 

其 中 包含 带 星 号 习题 的 解答 、 已 知 的 勘误 表 、 后 备 材料 等 。 我 们 希望 提供 所 教 CS154 课 程 的 
所 有 笔记 材料 ， 包 括 课 后 作业 、 习 题解 答 和 考试 等 。 
致谢 

Craig Silverstein 关 于 “如 何 进行 证 明 ” 的 讲稿 为 本 书 第 1 章 中 的 一 些 材料 提供 了 借鉴 。 对 本 
书 第 2 版 手稿 (2000) 的 评论 和 勘误 来 自 于 ，Zoe Abrams, George Candea, Haowen Chen, 
Byong-Gun Chun, Jeffrey Shallit, Bret Taylor, Jason Townsend 和 Erik Uzureau 等 .。 

同时 ， 我 们 也 收 到 了 很 多 有 关 本 书 第 ?版 内 容 勘误 的 电子 邮件 ， 这 些 读者 的 名 字 已 经 写 进 了 
那 一 版 本 在 线 勘 误 表 的 致谢 可 中 。 然 而 ， 我 们 还 是 希望 把 那些 提出 了 大 量 书 中 出 现 的 重大 错误 
的 人 员 公布 如 下 ， 他 们 是 :Zeki Bayram, Sebastian Hick, Kang-Rac Lee, Christian Lemburg, 
Nezam Mahdavi-Amiri, Dave Majer、A 了 Marathe、Mark Meuleman, Mustafa Sait-Ametov, 
Alexey Sarytchev, Jukka Suomela, Rod Topor、Po-Lian Tsai, Tom Whaley, Aaron Windsor 和 
Jacinth HTWu。 

非常 感谢 他 们 的 帮助 。 当 然 ， 剩 下 的 错误 都 是 由 我 们 负责 。 


J.E.H. 

R.M. 

工 D.U 

MHN, LEL: 加 州 ， 斯 坦 福 
2006 年 2 月 
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第 1 章 自动 机 : 方法 与 体验 


自动 机 理论 研究 抽象 计算 装置 或 “机 器 "。 在 20 世 纪 30 年 代 计算 机 出 现 之 前 ， 图 灵 研 究 过 一 
种 抽象 机 器 ， 这 种 机 器 具备 了 今天 计算 机 的 所 有 了 能力， 至 少 在 计算 能 力 上 是 这 样 的 。 图 灵 的 目 
标 是 精确 地 描述 一 条 界线 ， 这 条 界线 区 分 计算 机 能 做 什么 和 不 能 做 什么 ， 图 灵 的 结论 不 仅 适 用 
于 抽象 的 图 灵机 ， 也 适用 于 今天 的 真实 机 器 。 

在 20 世 纪 40 和 50 年 代 ， 许 多 研究 者 研究 过 更 简单 类 型 的 机 器 ， 今 天 称 为 “有 穷 自动 机 ”。 起 
初 建议 用 这 些 自动 机 来 为 人 脑 功能 建立 模型 ， 后 来 发 现 这 些 自动 机 对 于 1.1 池 提 到 的 各 种 其 他 目 
的 也 极为 有 用 。 在 20 世 纪 50 年 代 后 期 ， 语 言 学 家 乔 姆 斯 基 (N. Chomsky) 开始 研究 形式 “文法 "。 
尽管 这 些 文法 不 是 严格 意义 上 的 机 器 ， 但 与 抽象 自动 机 有 密切 关系 ， 而 且 目前 是 一 些 重要 软件 
部 件 (包括 部 分 编译 器 在 内 ) 的 基础 。 

在 1969 年 ， 库 克 (S. Cook) 扩展 了 图 灵 对 什么 能 被 计算 和 什么 不 能 被 计算 的 研究 。 库 克 设 
法 分 离 出 了 两 类 问题 ， 一 类 是 计算 机 能 有 效 解决 的 ， 另 一 类 是 计算 机 理论 上 能 解决 ， 但 实际 上 
要 花费 太 长 时 间 ， 以 致 除了 非常 小 的 问题 实例 以 外 ， 计 算 机 是 毫 无 用 处 的 。 后 一 类 问题 称 为 
“ 难 解 的 ”或 “NP- 难 的 "。 计 算 机 硬件 一 直 遵循 着 计算 速度 时 指数 增长 的 规律 (摩尔 定律 )， 但 
这 也 不 太 可 能 显著 地 影响 解决 难 解 问题 大 实例 的 能 力 。 

所 有 这 些 理论 进展 都 直接 影响 了 计算 机 科学 家 今天 的 工作 。 有 些 概念 ， 比 如 有 穷 自动 机 和 
某 些 类 型 的 形式 文法 ， 用 于 设计 和 构造 重要 类 型 的 软件 。 另 一 些 概 念 ， 比 如 图 灵机 ， 则 帮助 我 口 
们 理解 能 期 待 软件 做 什么 。 特别 是 ， 难 解 问题 的 理论 允许 推断 是 否 有 可 能 “正面 ”处 理 一 个 问 
题 ， 编 写 解决 这 个 问题 的 程序 (因为 这 个 问题 不 属于 难 解 的 一 类 )， 或 者 是 否 需要 找到 某 种 方法 
来 迁 回 处 理 这 个 难 解 的 问题 ， 找 近似 算法 、 用 启发 式 算法 或 者 用 某 种 其 他 方法 来 限制 程序 解决 
这 个 问题 所 花费 的 时 间 。 

本 章 作为 人 门 性 的 内 容 ， 首 先 从 概述 高 级 自动 机 理论 的 内 容 和 用 途 开 始 。 本 章 许多 篇 幅 用 
来 总 结 证 明 技术 和 发 现 证 明 的 技巧 。 这 些 内 容 包括 : 演绎 证 明 、 命 题 变形 、 反 证 法 、 归 纳 证 明 
以 及 其 他 重要 概念 。 最 后 一 节 介 绍 一 些 贯 穿 自动 机 理论 的 概念 : 字母 表 ， 串 以 及 语言 。 


1.1 为 什么 研究 自动 机 理论 


有 几 个 理由 解释 了 为 什么 自动 机 和 复杂 性 的 研究 是 计算 机 科学 核心 的 重要 部 分 。 本 节 要 向 
读者 介绍 主要 的 动机 并 概括 本 书 讨论 的 主要 主题 。 


1.1.1 有 穷 自 动机 简介 


有 穷 自动 机 是 许多 重要 类 型 的 硬件 和 软件 的 有 用 模型 。 从 第 2 章 开始 会 看 到 如 何 使 用 这 些 概 
念 的 例子 。 目 前 只 列 出 一 些 最 重要 的 类 型 : 
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1. 数字 电路 的 设计 和 性 能 检查 软件 。 

2. 典型 编译 器 的 “词法 分 析 器 "， 也 就 是 说 ， 把 输入 文本 分 解 为 诸如 标识 符 、 关 键 字 和 标点 

符号 等 逻辑 单元 的 编译 器 部 件 。 

3. 扫描 大 量 文本 (如 收集 到 的 网 页 ) 来 发 现 单词 、 短 语 或 其 他 模式 的 出 现 的 软件 。 

4. 所 有 类 型 的 只 有 有 穷 多 个 不 同 状态 的 系统 (比如 通信 协议 或 安全 交换 信息 的 协议 ) 的 验 

证 软件 。 

很 快 就 会 遇 到 各 种 类 型 自动 机 的 精确 定义 ， 非 形式 化 的 介绍 从 概述 有 穷 自 动机 是 什么 和 做 
什么 开始 。 可 以 认为 许多 系统 或 部 件 (如 上 面 列举 的 那些 ) 始终 处 在 有 穷 多 个 “状态 ”之 一 。 
状态 的 目的 是 记 住 系统 历史 的 有 关 部 分 。 由 于 只 有 有 穷 多 个 状态 ， 在 一 般 情 况 下 不 可 能 记 住 整 
个 历史 ， 所 以 必须 仔细 地 设计 系统 ， 以 记 住 重要 的 历史 部 分 而 忘记 不 重要 的 。 只 有 有 穷 多 个 状 
态 的 好 处 是 用 固定 的 资源 就 能 实现 系统 。 例 如 ， 可 用 硬件 将 其 实现 为 电路 ， 或 者 实现 为 简单 形 
式 的 程序 ， 这 种 程序 只 查看 有 限 的 数据 就 能 做 出 决定 ， 或 者 用 代码 本 身 中 的 位 置 来 做 出 决定 。 


例 1.1 也 许 最 简单 的 非 平 记 有 穷 自动 机 是 两 相 开 关 。 这 个 装置 记 住处 在 “ 开 ” 状 态 或 “ 关 ” 
状态 ， 人 允许 用 户 按 按钮 ， 这 个 按钮 根据 开关 状态 起 不 同 作用 。 也 就 是 说 ， 如 果 开 关 处 在 关 状 态 ， 
按 这 个 按钮 就 变 成 开 状 态 ， 如 果 开 关 处 在 开 状 态 ， 按 这 个 按钮 就 变 成 关 状 态 。 

这 个 开关 的 有 穷 自动 机 模型 如 图 1-1 所 示 。 对 所 有 的 有 穷 自动 机 都 一 样 ， 状 态 用 圆 围 表示。 
在 这 个 例子 中 ， 命 名 了 状态 on (FF) Moff ( 关 )。 状 态 之 间 的 箭 
头 用 “输入 ”来 标记 ， 表 示 作用 在 系统 上 的 外 部 影响 。 这 里 两 个 
箭头 都 用 Push (He) 来 标记 ， 表 示 用 户 按 这 个 按钮 。 这 两 个 箭头 Start 
的 含义 是 ， 无论 系 统 处 在 什么 状态 ， 当 收 到 输入 Push 时 ， 就 进入 Gr) (cn) 


另 一 个 状态 。 


把 一 个 状态 指定 为 “初始 状态 "， 即 系统 开始 时 所 处 的 状态 。 Push 
在 这 个 例子 中 ， 初 始 状态 是 of， 习 惯 上 用 单词 Start (开始 ) 和 -一 图 1-1 为 两 相 开关 建立 模型 
个 指向 这 个 状态 的 箭头 来 说 明 初始 状态 。 ORRERI 


通常 需要 说 明 一 个 或 多 个 状态 是 “终止 ”或 “接受 ”状态 。 在 经 历 一 个 输 大 序列 后 进入 这 
些 状态 之 一 ， 说 明 这 个 输入 序列 在 某 种 程度 上 是 好 的 。 例 如 ， 可 以 认为 图 1-1 中 的 on 状态 是 接受 
状态 ， 因 为 在 这 个 状态 下 ， 这 个 由 开关 控制 的 装置 将 会 运行 。 习 惯 上 用 双 圆 围 来 说 明 接受 状态 ， 
但 在 图 1-1 中 没有 做 这 样 的 说 明 。 o 


例 1.2 ”有 时 候 ， 一 个 状态 记忆 的 内 容 比 一 个 开关 选择 要 复杂 得 多 中 图 1-2 显 示 另 一 个 有 穷 自 
动机 ， 它 可 能 是 词法 分 析 器 的 一 部 分 。 这 个 自动 机 的 任务 是 识别 关键 字 then。 因 此 这 个 自动 机 
需要 5 个 状态 ， 每 个 状态 表示 在 单词 then 中 目前 已 经 到 达 的 不 同位 置 。 这 些 位 置 对 应 于 这 个 单 
词 的 前 缀 ， 范 围 从 空 串 〈 即 一 点 也 没有 看 见 这 个 单词 ) 到 整个 单词 。 


图 1-2 为 识别 then 建 立 模型 的 有 穷 自 动机 
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在 图 1-2 中 ， 用 目前 已 经 看 到 的 then 的 前 缀 来 命名 5 个 状态 。 输 入 对 应 字母 。 可 以 想像 ， 词 
法 分 析 器 每 次 检查 正在 编译 的 程序 的 一 个 字母 ， 要 检查 的 下 一 个 字母 就 是 自动 机 的 输入 。 初 始 
状态 对 应 空 串 。 每 个 状态 在 then 的 下 一 个 字母 上 转移 到 对 应 于 下 一 个 更 长 前 缀 的 状态 土 。 当 输 
和 拼写 了 单词 then 时 ， 就 进入 了 名 为 then 的 状态 。 由 于 这 个 自动 机 的 任务 是 识别 何 时 已 经 看 
到 了 then， 所 以 可 认为 这 个 状态 是 惟一 的 接受 状态 。 o 


11.2 结构 表示 法 


有 两 种 不 像 自动 机 但 在 自动 机 的 研究 和 应 用 中 起 重要 作用 的 重要 记号 。 
1. 文 法 在 设计 某 种 软件 时 是 有 用 的 模型 ， 这 种 软件 处 理 带 递归 结构 的 数据 。 最 著名 的 例子 
是 “语法 分 析 器 "， 即 处 理 典型 程序 设计 语言 中 递归 嵌 套 特征 的 编译 器 部 件 ， 这 些 特征 比 
如 是 表达 式 (如 算术 表达 式 、 条 件 表达 式 等 )。 例 如 ， 像 =>E + E 这 样 的 文法 规则 提出 ， 
把 两 个 表达 式 用 加 号 连 起 来 就 形成 一 个 表达 式 ， 对 于 真正 的 程序 设计 语言 如 何 构造 表达 
式 来 说 ， 这 条 规则 是 典型 的 。 第 5 章 将 介绍 通常 所 说 的 上 下 文 无 关 文法 。 
2. 正 则 表达 式 也 表示 数据 的 结构 ， 特 别 是 文本 串 。 在 第 3 章 将 会 看 到 ， 正 则 表达 式 描述 的 捉 
模式 恰好 与 有 穷 自 动机 描述 的 一 样 。 这 些 表达 式 的 风格 与 文法 的 风格 有 显著 不 同 。 这 里 
只 举 一 个 简单 的 例子 。UNIX 风 格 的 正则 表达 式 [A-2][a-z]*[ ] [A-2][A-Z]' 表示 
首 字母 大 写 的 单词 后 面 跟着 一 个 空格 和 两 个 大 写字 母 。 这 个 表达 式 表示 文本 中 城市 和 州 
的 模式 ， 如 Ithaca NY。 这 个 表达 式 不 能 表示 有 多 个 单词 的 城市 名 ， 如 Palo Alto CA, 
这 可 以 用 更 复杂 的 表达 式 
"[A-2][a-z]x([ ][A-Z][a-z]*)*[ J[A-2][A-2]" 
来 表示 。 在 解释 这 种 表达 式 时 ， 只 需要 知道 [A-2] 表 示 从 大 写字 母 A 到 大 写字 母 2 的 字符 范围 
( 即 任意 的 大 写字 母 )， 用 [ ] 表 示 单 个 的 空格 字符 。 而 且 ， 符 号 * 表 示 “ 任 意 多 个 ”前 面 的 表达 
式 。 括 号 用 来 对 表达 式 各 部 分 进行 分 组 ， 而 不 表示 所 描述 的 文本 中 的 字符 。 


11.3 自动 机 与 复杂 性 


对 计算 局 限 性 的 研究 来 说 ， 自 动机 是 必 不 可 少 的 。 正 如 本 章 前 言 中 所 说 ， 有 两 个 重要 问题 ; 

1. 计算机 到 底 能 做 什么 ?这 种 研究 称 为 “可 判定 性 ”, 计算 机 能 解决 的 问题 称 为 “可 判定 的 ”。 
第 9 章 讨论 这 个 主题 。 

2. 计算机 能 有 效 地 做 什么 ? 这 种 研究 称 为 “ 难 解 性 "， 计 算 机 用 不 超过 输入 规模 的 某 个 缓慢 增 
长 函数 的 时 间 所 能 解决 的 问题 ， 称 为 “ 易 解 的 "。 通 常 ， 把 所 有 的 多 项 式 函数 当 作 “ 缓 慢 增 
长 的 ”， 而 把 比 任何 多 项 式 都 增长 得 快 的 函数 看 作 增长 得 太 快 了 。 第 10 章 讨论 这 个 主题 。 


1.2 形式 化 证 明 简介 


如 果 在 20 世 纪 90 年 代 以 前 的 任何 时 候 ， 在 高 中 学 习 平面 几何 ， 就 很 可 能 不 得 不 做 一 些 详细 
的 “演绎 证 明 ”， 即 用 详细 的 步骤 和 理由 序列 来 证 明 命题 的 正确 性 。 对 于 为 什么 在 高 中 学 习 这 个 
数学 分 支 来 说 ， 几 何 有 实用 的 一 面 ( 例 如， 要 为 房间 买 到 大 小 合适 的 地 毯 ， 就 要 知道 计算 矩形 
面积 的 公式 )， 但 学 习 形式 化 证 明 方法 也 是 同样 重要 的 理由 。 

20 世 纪 90 年 代 ， 美 国 的 流行 趋势 是 把 证 明 当做 对 命题 的 个 人 感觉 。 感 觉 要 使 用 的 命题 是 正 
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确 的 ， 这 是 好 事 ， 但 在 高 中 不 再 掌握 重要 的 证 明 技术 了 。 但 证 明 还 是 每 个 计算 机 科学 家 需要 理 
解 的 东西 。 某 些 计算 机 科学 家 采取 极端 的 观点 : 程序 正确 性 的 形式 化 证 明 应 当 与 编写 程序 本 身 
同步 进行 。 作 者 怀疑 这 样 做 是 否 有 成 效 。 另 一 方面 ， 有 人 说 在 程序 设计 的 原理 中 不 包括 证 明 。 
这 个 阵营 经 常 提 册 这样 的 口号 :“ 如 果 不 能 肯定 程序 是 正确 的 ， 就 运行 这 个 程序 来 测试 一 下 "。 

作者 的 立场 处 在 这 两 种 极端 之 间 。 程 序 测试 肯定 是 必要 的 。 但 是 ， 测 试 只 能 走 这 么 远 ， 因 
为 不 可 能 在 每 个 输入 上 测试 程序 。 更 重要 的 是 ， 如 果 程序 是 复杂 的 ， 比 如 说 棘手 的 递归 或 迁 代 ， 
那么 在 进行 循环 或 递归 调用 函数 时 ， 若 不 能 理解 正在 干什么 ， 就 不 太 可 能 写 出 正确 的 程序 代码 。 
当 测 试 说 明代 码 不 正确 时 ， 仍 然 需 要 修改 代码 。 

要 形成 正确 的 选 代 或 递归 ， 就 要 建立 归纳 假设 ， 形 式 化 或 非 形式 化 地 推导 出 这 个 假设 与 碗 
代 或 递归 是 相 容 的 ， 这 样 做 是 有 帮助 的 :理解 正确 程序 的 工作 过 程 ， 这 个 过 程 与 用 归纳 法 证 明 
定理 的 过 程 实质 上 是 一 样 的 。 因 此 ， 在 提供 某 种 类 型 软件 的 有 用 模型 之 外 ， 学 习 形式 化 证 明 的 
方法 学 ， 这 成 了 自动 机 理论 课程 的 传统 。 也 许 比 起 计算 机 科学 的 其 他 核心 课题 来 说 ， 自 动机 理 
论 本 身 有 着 更 多 自然 的 和 有 趣 的 证 明 ， 既 有 演绎 类 型 (有 根据 的 步骤 的 序列 ) ， 也 有 归纳 类 型 
( 带 参数 命题 的 递归 证 明 ， 证 明 用 到 带 “ 较 小 ”参数 值 的 命题 本 身 )。 


1.2.1 演绎 证 明 


前 面 说 过 ， 演 绎 证 明 包含 命题 序列 ， 其 正确 性 导致 从 某 个 初始 命题 〈 称 为 前 提 或 已 知 命题 ) 
得 出 “结论 ”命题 。 证 明 中 每 一 步 都 必须 根据 某 条 公认 的 逻辑 原理 ， 利 用 已 知 的 事实 或 演绎 证 
明 中 前 面 的 一 些 命题 ， 或 利用 这 两 者 的 组 合 。 

前 提 可 能 为 真 也 可 能 为 假 ， 这 通常 依赖 于 参数 值 。 前 提 人 常常 包含 几 个 独立 命题 ， 用 逻辑 
AND (与 ) 联结 。 在 这 些 情况 下 ， 就 说 每 个 命题 是 一 个 前 提 或 已 知 命题 。 

当 从 前 提 H 到 结论 C 时 ， 所 证 明 的 定理 是 命题 “如 果 有 万 ， 则 C”。 说 C 是 从 太 演 绎 出 来 的 。 形 如 
“如 果 有 HH， 则 C” 的 一 个 示范 定理 会 解释 这 些 要 点 。 


定理 1.3 W4, M>, 口 


非 形式 化 地 说 明定 理 1.3 为 真 ， 这 是 不 难 的 ， 但 形式 化 证 明 要 求 用 归纳 法 ， 将 其 留 给 例 1.17。 
首先 注意 ， 前 提 已 是 “x>4"。 这 个 前 提 有 参数 xz， 因此 前 提 既 不 为 真 也 不 为 假 。 实 际 上 ， 前 提 的 
正确 性 依赖 于 参数 * 的 值 ， 例 如 ，H 对 于 x = 6 为 真 ， 对 于 x = 2 为 假 。 

同样 ， 结 论 C 是 “2 > z" 。 这 个 命题 也 用 参数 *， 对 于 特定 的 xz 值 为 真 ， 对 于 其 他 值 为 假 。 例 
如 ，C 对 于 x = 3 为 假 ， 因 为 2= 8， Ata: 9。 另 外 ，C 对 于 x = 4 为 真 ， 因 为 2= 4 = 16, HF 
x= 5， 命 是 也 为 真 ， 因 为 2= 32， 不 小 于 了 = 

读者 也 许 看 出 这 个 直观 论证 ， piping RExr>4, HESL RAR, RNCAAR, 
对 x = 4, HHH. AKA AT, odin, Zeit A. AEA? 按照 比值 


(4) 来 增长 。 如 果 r>4， 则 G+ Dix 不 可 能 大 于 125， wast (224) 不 可 能 大 于 1.5625。 由 于 


15625 <2， 每 次 x 增长 到 大 于 4， 左 边 的 2 就 比 右边 的 马 增 长 得 多 。 因 此 ， 只 要 从 类 似 x = 4 这 样 的 值 
开始 (这 个 值 已 经 满足 不 等 式 2> 必 )， 就 可 以 让 x 任意 增长 ， 仍 然 满 足 这 个 不 等 式 。 
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现在 完成 了 定理 1.3 非 形式 化 但 精确 的 证 明 。 在 介绍 “归纳 ”证 明之 后 ， 例 1.17 还 要 回 到 这 
个 证 明 使 之 更 加 精确 。 

定理 1.3 与 所 有 相关 的 定理 一 样 ， 涉 及 无 穷 多 个 相关 事实 ， 在 这 个 例子 中 是 命题 对 所 有 整 
数 *,，“ 如 果 x*>4， 则 2*>z2"。 事 实 上 ， 不 需要 假设 x 是 整数 ， 但 这 个 证 明 表 明 ， 从 x = 4 开始 ， 反 
复 让 x 增 加 1， 所 以 实际 上 只 讨论 了 x 是 整数 的 情况 。 

用 定理 1.3 来 帮助 推导 其 他 定理 。 下 一 个 例子 考虑 一 个 简单 定理 的 完整 演绎 证 明 ， 证 明 用 到 
定理 1.3。 


定理 1.4 如 果 x 是 4 个 正 整 数 的 平方 和 ， 则 2*> zz。 

证 明 证 明 的 直观 想法 是 ， 如 果 前 提 对 x 为 真 ， 即 是 4 个 正 整数 的 平方 和 ， 则 x 必定 至 少 是 4。 
因此 ， 定 理 1.3 的 前 提成 立 ， 由 于 相信 定理 1.3， 就 可 以 说 定理 1.3 的 结论 也 对 x 为 真 。 这 个 推理 可 
表示 成 一 个 步 晴 序列 。 每 个 步骤 要 么 是 所 要 证 明定 理 的 前 提 或 一 部 分 前 提 ， 要 么 是 从 一 个 或 多 
个 前 面 的 命题 得 出 的 命题 。 

“得 出 ”的 意思 是 ， 如 果 某 个 定理 的 前 提 是 前 面 的 命题 ， 则 这 个 定理 的 结论 为 真 ， 就 可 以 写 
下 来 作为 证 明 中 的 一 个 命题 。 这 条 逻辑 规则 通常 称 为 假 言 推理 ， 即 如 果 知道 万 为 真 ， 并 且 知 道 
“WRH, WC” 为 真 ， 就 可 以 得 出 结论 C 为 真 。 也 克 许 用 某 些 其 他 逻辑 步骤 来 从 一 个 或 多 个 前 面 
的 命题 来 产生 命题 。 例 如， 如 果 4 和 8 是 两 个 前 面 的 命题 ， 则 可 以 推出 并 写 下 命题 “4 且 B"。 

图 1-3 显 示 证 明定 理 1.4 所 需要 的 命题 序列 。 一 般 不 用 这 种 风格 的 形式 来 证 明定 理 ， 但 这 样 做 
有 助 于 认识 到 证 明 是 非常 明确 的 命题 列表 ， 每 个 命题 都 有 精确 的 理由 。 SRO), RATE 
理 的 一 个 已 知 命题 x 是 4 个 整数 的 平方 和 。 如 果 在 证 明 中 给 所 提 到 的 未 命名 的 量 命名 ， 这 常 党 
是 有 帮助 的 ， 在 这 里 已 经 这 样 做 了 ， 给 4 个 整数 命名 为 a, b, Hid, 














命 题 理 由 
1 | r=atpteta Em An 
2 a>l;b>1;c>1;d>1 已 知 
3 | me>HpP>He>zlid>l (2) 和 算术 性 质 
4 | x>4 《D、(3) 和 算术 性 质 
5j z>} (4) 和 定理 13 











图 1-3 定理 1.4 的 形式 化 证 明 


在 步骤 (2) 中 ， 写 下 了 定理 前 提 的 其 余部 分 ;每 个 被 平方 的 值 至 少 是 1。 从 技术 上 说 ， 这 个 命 
题 表示 4 个 不 同 的 命题 ， 每 个 命题 对 应 于 所 涉及 的 4 个 整数 之 一 。 然 后 ， 在 步骤 (3) 中 注意 到 ， 如 
果 某 个 数 至 少 是 1， 则 这 个 数 的 平方 也 至 少 是 1。 用 命题 (2) 成 立 的 事实 和 “算术 性 质 ” 作为 理由 。 
也 就 是 说 ， 假 定 读者 知道 或 能 证 明 一 些 关 于 不 等 式 如 何 工作 的 简单 命题 ， 比如 命题 “如 果 y> 1， 
t>”, 

步 又 (4) 用 到 命题 (1) 和 (3)。 命 题 (1) 说 ; x 是 所 讨论 的 4 个 平方 之 和 ， 命题 (3) 说 : 每 个 平方 至 
少 是 1。 再 用 众所周知 的 算术 性 质 ， 就 得 出 : x 至 少 是 1+141+1， 即 4。 

在 最 后 的 步骤 (5) 中 ， 用 到 命题 (4)， 即 定理 1.3 的 前 提 。 定理 1.3 本 身 就 是 写 下 其 结论 的 理由 ， 
因为 其 前 提 是 前 面 的 命题 。 由 于 作为 定理 1.3 结 论 的 命题 (5) 也 是 定理 14 的 结论 ， 现在 就 证 明了 定 
理 14。 就 是 说 ， 已 经 从 这 个 定理 的 前 提 开 始 ， 设 法 演绎 出 了 这 个 定理 的 结论 。 口 
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1.2.2 求助 于 定义 


在 前 面 两 个 定理 中 ， 前 提 中 用 到 的 都 应 当 是 熟悉 的 术语 ， 例 如 ， 整 数 、 加 法 和 乘法 。 在 许 
多 其 他 定理 中 ， 包 括 自动 机 理论 的 许多 定理 ， 在 命题 中 用 到 的 术语 可 能 具有 不 明显 的 含义 。 一 
种 在 许多 证 明 中 推动 证 明 的 有 用 方法 是 : 

"如 果 不 能 肯定 如 何 开始 证 明 ， 就 把 前 提 中 的 所 有 术语 都 换 成 这 些 术 语 的 定义 。 

下 面 是 一 个 定理 的 例子 ， 一 旦 把 这 个 定理 的 命题 用 初等 术语 表达 出 来 ， 这 个 定理 证 明 起 来 
就 是 简单 的 。 这 个 定理 用 到 下 面 两 个 定义 : 


1. 一 个 集合 8 是 有 穷 的 ， 如 果 存 在 一 个 整数 "， 使 得 S 恰 有 n 个 元 素 。 写 成 1SIl = n, HRS 
表示 集合 S 中 元 素 的 个 数 。 如 果 集 合 S 不 是 有 穷 的 ， 就 称 9 是 无 穷 的 。 直 观 上 ， 无 穷 集合 是 








8 包含 了 比 任意 整数 都 要 多 的 元 素 的 集合 。 








2. 如 果 5 和 了 都 是 某 个 集合 U 的 子 集 , 则 当 SUT= 0 上 且 SnT= 纪 时 ，7 是 8 的 (FURY) 补 集 。 
就 是 说 ，U 的 每 个 元 素 恰好 是 在 S 和 了 其 中 的 一 个 中 换 句 话说 ，7 恰 好 包含 那些 不 在 9 中 
的 U 的 元 素 。 


定理 1.5 设 5 是 某 个 无 穷 集合 U 的 有 穷 子 集 。 设 7 是 5 关于 U 的 补 集 。 则 7 是 无 穷 的 。 
证 明 ”直观 上 ， 这 个 定理 说 ， 如 果 有 某 种 东西 的 无 穷 供应 (VU)， 取 走 了 有 穷 多 个 (3)， 则 
仍然 还 剩 下 无 穷 多 个 。 首 先 重新 叙述 这 个 定理 的 事实 ， 如 图 1-4 所 示 。 




















原始 命题 | 新 的 命题 
3 是 有 穷 的 存在 整数 "， 使 得 1SU = 
0 是 无 并 的 不 存在 整数 p， 使 得 On = p 
T 是 5 的 补 集 | SUr=vASNT=® | 





图 1-4 重新 叙述 定理 15 的 已 知事 实 


现在 仍然 束手无策 ， 所 以 要 用 一 种 称 为 “ 反 证 法 ”的 常用 证 明 技术 。 在 1.3.3 节 要 进一步 讨 
论 的 这 种 证 明 方 法 中 ， 假 设 结论 是 假 的 。 然 后 用 这 个 假设 和 部 分 前 提 来 证 明 前 提 中 一 个 已 知 合 
题 的 否定 命题 。 于 是 就 证 明了 不 可 能 让 前 提 中 所 有 部 分 都 为 真 ， 同 时 让 结论 为 假 。 剩 下 来 的 惟 
一 可 能 性 是 ， 每 当前 提 为 真 时 ， 结 论 就 为 真 。 就 是 说 ， 定 理 为 真 。 

在 定理 1:5 的 情况 下 ， 结 论 的 否定 是 “7 是 有 穷 的 "。 假 设 7 是 有 穷 的 ， 并 且 前 提 中 说 9 是 有 穷 
的 命题 ， 即 对 于 某 个 整数 x 来 说 SI = n。 同 样 ， 把 T 是 有 穷 的 假设 重新 叙述 成 : 对 于 某 个 整数 m 来 
WIT =m, 

现在 已 知 命题 之 一 说 SUT = USOT = 包 。 这 意味 着 ， 避 的 元 素 恰好 是 98 和 7 的 元 素 。 因 此 ， 
U0 必定 包含 m + n 个 元 素 。 由 于 m + "是 整数 ， 已 经 证 明了 II = m+n, RAW TUBA, 更 
准确 地 说 ， 证 明了 U 的 元 素 个 数 是 某 个 整数 ， 这 是 “有 穷 ” 的 定义 。 但 U 是 有 穷 的 这 个 命题 与 UV 
是 无 穷 的 已 知 命题 是 矛盾 的 。 因 此 用 结论 的 否定 命题 证 明了 与 已 知 命题 之 一 的 矛盾 ; 根据, 反 
证 法 ”原理 ， 可 以 得 出 这 个 定理 为 真 。 a 
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证 明 没有 必要 如 此 繁琐 。 既 然 看 到 了 这 个 证 明 背 后 的 想法 ， 就 用 几 行 字 来 重新 证 明 这 个 定理 。 




















带 量词 的 命题 


许多 定理 都 涉及 使 用 量词 “所 有 ”和 “存在 ”的 命题 ， 或 者 类 似 的 变形 ， 比 如 “每 个 ” 
代替 “所 有 ”。 这 些 量词 出 现 的 顺序 影响 命题 的 含义 。 把 带 多 个 量词 的 命题 看 作 两 个 选手 
(" 所 有 ”与 “存在 ") 之 间 的 “游戏 "， 这 两 个 选手 轮流 指定 定理 中 提 到 的 参数 的 值 ， 这 样 
做 常常 是 有 帮助 的 。“ 所 有 ”必须 考虑 所 有 可 能 的 选择 ， 所 以 “所 有 ”的 选择 通常 保留 为 
变量 。 但 是 ,“ 存 在 ”只 需要 选择 一 个 值 ， 这 个 值 可 能 依赖 于 选手 们 以 前 所 选择 的 值 。 量 
词 在 命题 中 出 现 的 顺序 决定 谁 先 选择 。 如 果 最 后 一 个 选择 的 选手 总 是 能 够 找到 某 个 允许 值 ， 
则 这 个 命题 为 真 。 

例如 ， 考 虑 “无 穷 集合 ”的 另 一 种 定义 : 集合 3 是 无 穷 的 ， 当 且 仅 当 对 所 有 整数 "来 说 ， 
存在 8 的 一 个 子 集 7 恰好 具有 mn 个 元 素 。 这 里 ,“ 所 有 ”是 在 “存在 ”前 面 ， 所 以 必须 考虑 一 
个 任意 整数 n。 现 在 ,“ 存 在 ”需要 选择 一 个 子 集 T， 可 以 使 用 关于 n 的 知识 来 这 样 做 。 例 如 ， 
如 果 5 是 整数 集合 ,“ 存 在 ”就 可 以 选择 子 集 T= {1, 2,…,n}， 因 此 无 论 n 是 什么 都 获得 胜利 。 
这 就 是 整数 集合 是 无 穷 的 一 个 证 明 。 

下 面 的 命题 看 起 来 像 “无穷 ”的 定义 ， 但 这 个 命题 是 不 正确 的 ， 因 为 它 站 倒 了 量词 的 
顺序 :“ 存 在 集合 5 的 一 个 子 集 7， 使 得 对 于 所 有 xn 来 说 ， 集 合 7 恰 有 7 个 元 素 "。 现 在 ,给 定 
集合 5， 比 如 整数 集合 。 选 手 “ 存 在 ”可 以 选择 任何 集合 T， 如 选择 了 {1, 2, 5}。 对 于 这 个 
选择 ， 选 手 “ 所 有 ”必须 证 明 : 对 于 每 个 可 能 的 n 来 说 ,7 都 有 n 个 元 素 。 但 是 ,“ 所 有 ”不 
可 能 这 样 做 。 例 如 ， 对 于 n = 4 来 说 就 做 不 到 ， 事 实 上 对 于 任何 "过 3 来 说 都 做 不 到 。 








证 明 (定理 1.5) ”已 知 9UT=U 且 5 与 7 不 相交 ， 所 以 liSIl + IT = Il。 由 于 3 是 有 穷 的 ， 对 于 
某 个 整数 "来 说 NSI = ny 由 于 7 是 无 穷 的 ， 不 存在 整数 p 使 得 ID = P。 所 以 假设 7 是 有 穷 的 ， 也 就 
是 说 ， 对 于 某 个 整数 m 来 说 ImI =m, HYUN = ISI + IT = +m， 这 与 不 存在 整数 p 等 于 ll 的 已 知 


命题 相 矛 盾 。 口 


1.2.3 其 他 定理 形式 
定理 的 “如 果 - 则 ”形式 在 典型 的 数学 领域 中 是 最 常见 的 。 但 是 ， 我 们 也 看 到 把 其 他 形式 的 


命题 当 作 定理 来 证 明 。 本 节 检查 命题 的 最 常见 形式 以 及 通常 要 如 何 来 证 明 这 些 命题 。 


1.2.3.1 说 “如 果 一 则 ”的 方式 
首先 ， 有 许多 类 型 的 定理 命题 看 起 来 与 简单 的 “如 果 瓦 ， 则 C” 形 式 是 不 同 的 ， 但 实际 上 说 
的 是 同样 的 东西 ; 如 果 前 提 已 对 给 定 的 参数 值 为 真 ， 则 结论 C 对 同样 的 值 为 真 。 下 面 是 “如 果 忌 ， 


则 C” 可 能 在 其 中 出 现 的 某 些 其 他 形式 : 


1, HC. 
2. HC, 
3.C4H, 
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4. 只 要 HH 为 真 ， 就 得 出 C。 

还 可 以 看 到 形式 (4) 有 许多 变种 ， 比 如 “如 果 右 成 立 ， 则 得 出 C”， 或 者 “只 要 肌 成 立 ，C 就 
成 立 "。 

例 1.6 定理 1.3 的 命题 可 能 以 下 列 4 种 形式 出 现 : 

1. x>4 2 S27, 

2.x>4 仅 当 2>> 了 P。 

3.2*> 了 2 当 r>4。 

4. 只 要 x>4， 就 得 出 >zP。 n 

而 且 ， 在 形式 逻辑 中 常常 看 到 ， 用 运算 一 来 代替 “如 果 一 则 ”。 也 就 是 说 ， 在 某 些 数 学 文献 
中 ,命题 “如 果 太 ， 则 C” 可 能 出 现 为 H 一 C， 本 书 不 采用 这 种 方法 。 

1232 当 且 仅 当 命题 

有 了 时候 发 现形 如 “A 当 且 仅 当 8” 的 命题 。 这 种 命题 的 其 他 形式 是 ，“Aiiff B”。、“A 等 价 于 B” 
或 “4 恰好 当 B”"。 这 种 命题 实际 上 是 两 个 “如 果 一 则 ”命题 :“ 和 如果 A， 则 B” 和 “如 果 B， 则 A”。 
要 证 明 “4 当 且 仅 当 B"， 可 以 证 明 这 样 两 个 命题: 

1. 当 部 分 :“ 如 果 B， 则 4"， 以 及 

2. 仅 当 部 分 :“ 如 果 4， 则 B"， 这 个 命题 常常 叙述 成 等 价 形式 “4 仅 当 B"。 
可 以 按照 任意 次 序 来 给 出 这 些 证 明 。 在 许多 定理 中 ， 一 部 分 肯定 比 另 一 部 分 容易 ， 习 惯 上 先 给 
出 容易 的 那个 方向 ， 在 证 明 过 程 中 不 再 考虑 这 个 方向 。 

在 形式 逻辑 中 可 能 看 到 ， 运 算 * 或 = 表示 “ 当 且 仅 当 ”命题 。 也 就 是 说 ，A=B 和 A*>B 与 “A 
当 且 仅 当 8” 意思 一 样 。 





证 明 要 多 么 形式 化 ? 


这 个 问题 并 不 容易 回答 。 证 明 的 底线 在 于 ， 证 明 的 目标 是 说 服 别 人 (无 论 是 给 读者 批 
改作 业 的 人 还 是 读者 自己 ) 相信 在 证 明代 码 中 所 使 用 的 策略 的 正确 性 。 如 果 它 是 有 说 服 力 
的 ， 那 就 足够 了 ， 如 果 不 能 说 服 证 明 的 “听众 "， 那 这 个 证 明 就 省 略 得 太 多 了 。 

证 明 的 不 肯定 性 一 部 分 来 源 于 听众 所 具有 的 不 同 知识 。 因 此 ， 在 定理 1.4 中 假设 读者 懂 
得 全 部 算术 ， 能 够 相信 像 “如 果 y> 1， 则 > 1” 这 样 的 命题 。 如 果 读者 不 熟悉 算术 ， 作 者 
就 需要 在 演绎 证 明 中 用 一 些 步骤 来 证 明 这 些 命题 。 

但 是 ， 证 明 中 有 些 东 西 是 必须 的 ， 省 略 这 些 东西 肯定 让 证 明 变 得 不 恰当 。 例 如 ， 对 于 
不 以 已 知 命题 或 前 面 命题 为 其 根据 的 命题 ， 任 何 使 用 了 这 种 命题 的 演绎 证 明 都 是 不 恰当 的 。 
当 进 行 “ 当 且 仅 当 ”命题 的 证 明 时 ， 必 须 保证 对 于 “ 当 ” 部 分 有 一 个 证 明 ， 对 于 “ 仅 当 ” 
部 分 有 另 一 个 证 明 。 另 一 个 例子 是 ， 归 纳 证 明 (1.4 节 讨论 ) 要 求 基础 部 分 的 证 明 ， 以 及 归 
纳 部 分 的 证 明 。 











当 证 明 “ 当 且 仅 当 ”命题 时 ， 重 要 的 是 记 住 “ 当 ” 和 “ 仅 当 ”部 分 都 必须 证 明 。 有 时 候 会 


O “ 当 且 仅 当 ”的 缩写 谢 不 是 一 个 单词 ， 为 了 行文 简捷 ， 在 某 些 数学 专著 中 采用 这 个 缩写 。 
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发 现 ， 把 “ 当 且 仅 当 ”分 解 成 一 系列 几 个 等 价 式 ， 也 是 有 帮助 的 。 就 是 说 ， 要 证 明 “4 当 且 仅 当 
B"， 可 能 先 证 明 “4 当 且 仅 当 C" ， 再 证 明 “C 当 且 仅 当 B"。 只 要 记 住 每 个 当 且 仅 当 步骤 都 必须 证 
明 两 个 方向 ， 这 个 方法 就 奏效 。 在 任何 一 步 只 证 明 一 个 方向 都 使 整个 证 明 无 效 。 

下 面 是 一 个 简单 的 “ 当 且 仅 当 ”证 明 的 例子 。 它 用 到 的 记号 如 下 ， 

1.Lx]， 实 数 * 的 下 取 整 ， 即 小 于 或 等 于 x 的 最 大 整数 。 

2.[x1， 实 数 x* 的 上 取 整 ， 即 大 于 或 等 于 x 的 最 小 整数 。 


定理 1.7 设 * 是 实数 ， 则 [|xj=[x] 当 且 仅 当 x 是 整数 。 

证 明 (RHR) 在 这 部 分 中 ， 假 设 | x 上 =[x1]， 试 图 证 明 x 是 整数 。 利 用 下 取 整 和 上 取 整 
的 定义 ,注意 到 | x ]<x 和 [x1>x。 但 是 ， 已 知 Lxj=[x1。 因 此 ， 在 第 一 个 不 等 式 中 用 下 取 整 代 
替 上 取 整 就 得 出 [x1<x。 由 于 [x1<x 和 [x1>x 都 成 立 ， 根 据 算术 不 等 式 的 性 质 就 得 出 [x1=x。 
由 于 [x] 总 是 整数 ， 在 这 种 情况 下 x 也 必定 是 整数 。 

( 当 部 分 ) 现在 ,假设 * 是 整数 ， 试 图 证 明 | x =[x1。 这 部 分 是 容易 的 。 根 据 下 取 整 和 上 取 
整 的 定义 ， 当 * 是 整数 时 ，| x*j 和 [x1] 都 等 于 +， 因此 彼此 相等 。 口 


1.2.4 表面 上 不 是 “如 果 - 则 ”命题 的 定理 
有 时 候 ， 会 遇 到 表面 上 没有 前 提 的 定理 。 一 个 例子 是 三 角 学 中 众所周知 的 事实 。 
定理 1.8 sinzg+ cos?@=1, 口 


实际 上 ， 这 个 命题 的 确 有 前 提 ， 该 前 提包 含 了 为 解释 这 个 命题 所 需要 知道 的 所 有 命题 。 特 
别 是 ， 隐 藏 的 假设 是 : 是 一 个 角 ， 因 此 正弦 和 余弦 函数 具有 对 于 角度 的 通常 含义 。 从 这 些 术语 
的 定义 以 及 勾 股 定理 (直角 三 角形 中 ， 斜 边 的 平方 等 于 另外 两 边 的 平方 和 )， 就 能 证 明 这 个 定理 。 
本 质 上 ， 这 个 定理 的 “如 果 - 则 ”形式 其 实 是 :“ 如 果 6 是 一 个 角 ， 则 sinzg+ cos?9= 1", 


1.3 其 他 的 证 明 形 式 


本 节 讨 论 另外 几 个 关于 如 何 构造 证 明 的 主题 : 
1. 关 于 集合 的 证 明 。 

2. 反 证 法 。 

3. 反 例证 法 。 


1.3.1 证 明 集合 等 价 性 


在 自动 机 理论 中 ， 经 常 要 证 明定 理 说 ， 用 两 种 不 同方 法 构造 的 集合 是 相同 的 集合 。 通 常 ， 
这 些 集合 都 是 字符 串 集合 ， 把 这 些 集合 称 为 “语言 "， 但 在 本 节 ， 集 合 的 属性 并 不 重要 。 如 果 E 
和 1 是 两 个 表示 集合 的 表达 式 ， 命 题 E = F 就 意味 着 所 表示 的 集合 是 相同 的 。 更 准确 地 说 ，E 所 表 
示 的 集合 中 每 个 元 素 都 属于 F 所 表示 的 集合 ，F 所 表示 的 集合 中 每 个 元 素 也 都 属于 E 所 表示 的 集 
合 。 


例 1.9 ”并 运算 的 交换 律 说 明 ， 可 用 任意 顺序 取 两 个 集合 R 和 5 的 并 ， 即 RUS = SUR, 在 这 种 
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情形 下 ，E 是 表达 式 RUS，F 是 表达 式 SUR。 并 运算 交换 律 说 明 E =F. o 


可 以 把 集合 等 式 E = F 写 成 一 个 当 且 仅 当 命题 : 元 素 * 属 于 E， 当 且 仅 当 x 属 于 F。 结 果 就 是 ， 
对 于 断言 两 个 集合 相等 的 命题 E = F， 看 到 了 这 种 命题 的 证 明 轮廓 ， 这 种 证 明 遵循 了 任何 当 且 仅 
当 证 明 的 形式 : 

1. 证 明 : 如 果 x* 属 于 E， 则 x 属于 F。 

2. 证 明 : 如 果 x 属 于 F， 则 x 属 于 E。 

作为 这 种 证 明 过 程 的 一 个 例子 ， 来 证 明 并 对 交 的 分 配 律 。 


定理 1.10 RU(SNT) = (RUS)N(RUT), 

证 明 所 涉及 的 两 个 集合 表达 式 是 E = RU(SNT) 和 F = (RUS)N(RUT)。 依 次 证 明定 理 的 两 个 
部 分 。 在 “ 当 ” 部 分 ， 假 设 元 素 x* 属 于 E， 证 明 x 属 于 F。 这 部 分 总 结 在 图 1-5 中 ， 用 到 了 交 和 并 的 
定义 ， 假 设 读者 熟悉 这 些 定义 。 

















| 命 题 理 由 Eo Eia | 
1 x 属于 RU(SNT) 前 提 
2 | x 属 于 R 或 z 属 于 Sn7 (DD 以 及 并 的 定义 
3 | AF Rat MF SANT 2) 以 及 交 的 定义 
4 x 属 于 RUS (3) 以 及 并 的 定义 
5 x 属 于 RUT (3) 以 及 并 的 定义 
6 > 属于 (RUSImCRUT) (4)、(5) 以 及 交 的 定义 











图 1-5 定理 1.10“ 当 ”部 分 中 的 步骤 


然后 ， 要 证 明定 理 的 “ 仅 当 ”部 分 。 在 这 里 ， 假 设 x 属 于 F， 证 明 x 属 于 已 这些 步 台 总 结 在 
图 1-6 中 。 由 于 现在 已 经 证 明了 当 且 仅 当 命题 的 两 个 部 分 ， 所 以 证 明了 并 对 交 的 分 配 律 。 口 























| 命 题 I 理 由 
1 x 属于 (RUSN(RUT) 前 提 
2 x 属 于 RUS (1) 以 及 交 的 定义 
3 x 属 于 RUT (DD 以 及 交 的 定义 
4 x 属 于 R 或 x 同 时 属于 S 和 7 D). O 以 及 关于 并 的 推理 
5 x 属于 R 或 属于 SNT (4) 以 及 交 的 定义 
6 x 属 于 RU(SnT) 中 (5) 以 及 并 的 定义 








图 1-6 定理 1.10“ 仅 当 ”部 分 的 步骤 
13.2 逆 否 命题 


每 一 个 “如 果 一 则 ”命题 都 有 一 种 等 价 形式 ， 在 某 些 情况 下 等 价 形式 更 容易 证 明 。*“ 如 果 太 ， 
则 C” 命 题 的 送 否 命题 是 “如 果 非 C， 则 非 8"。 一 个 命题 与 其 逆 否 命题 是 同时 为 真 或 同时 为 假 的 ， 
故 可 证 明 其 中 一 个 来 证 明 另 一 个 。 


Download at http://www.pinSi.com/ 


自动 机 : 方法 与 体验 11 





ATHBAHA “WRH, WC” 5 “REC, WIEN” BBR, We, EEN 
种 情况 : 

1. 和 C 都 为 真 。 

2. HAF., CHR. 

3.CAK, HAIR. 

4. 和 C 都 为 假 。 
只 有 一 种 方式 使 “如 果 - 则 ”命题 为 假 ， 即 在 情形 (2) 中 ， 前 提 为 真 、 结 论 为 假 。 对 于 其 他 三 种 
情形 ， 包 括 对 于 结论 为 假 的 情形 (4),“ 如 果 - 则 ”命题 本 身 都 为 真 。 

现在 考虑 对 于 哪些 情形 ， 逆 否 命题 “如 果 非 C， 则 非 H” 为 假 。 要 使 这 个 命题 为 假 ， 前 提 
“ARC” BRAN, ie “ARH” BMA. (LEECH, “IEC” WIL, WEHA, 
“SEH” AI. TAREE). RB, ZED, aS Ii a 
命题 同时 为 真 或 同时 为 假 ， 即 二 者 是 逻辑 等 价 的 。 





对 集合 说 “ 当 且 仅 当 ” 


前 面 说 过 ， 陈 述 集 合 表达 式 等 价 性 的 定理 都 是 当 且 仅 当 命题 。 因 此 ， 定 理 1.10 可 以 叙 
述 为 : 元 素 * 属 于 RU(SNT)， 当 上 且 仅 当 x 属 于 (RUS)N(RUT)。 

另 一 种 常用 的 集合 等 价 性 表达 式 使 用 措辞 “所 有 并 且 只 有 ”。 例 如 ， 定 理 1.10 也 可 以 叙 
RA: RU(Sn7) 的 元 素 是 所 有 并 且 只 有 属于 (RUSm(RU7) 的 元 素 。 








逆 命题 
不 要 混淆 术语 “ 逆 否 命题 ”与 “ 逆 命 题 "。“ 如 果 一 则 ”命题 的 北 命 是 是“ 另 一 个 方 
向 ”， 就 是 说 ,“ 如 果 态 ， 则 C” 的 逆 命 题 是 “如 果 C， 则 有 "。 不 是 像 逆 否 命题 那样 与 原 命 
题 等 价 ， 逆 命题 与 原 命题 不 等 价 。 实 际 上 ， 当 且 仅 当 证 明 的 两 个 部 分 总 是 某 个 命题 及 其 逆 
命题 。 











例 1.11 回忆 一 下 定理 13， 其 命题 是 “如 果 r*>4， 则 2*>z2"。 这 个 命题 的 逆 否 命题 是 “如 
果 非 2'> 避 ， 则 非 x*>4”"。 利 用 “ 非 a>b” 与 “a <b” 相 同 这 个 事实 ， 用 更 顺畅 的 话 来 表述 ， 这 
个 逆 否 命题 就 是 “如 果 2*< 并 ， 则 x<4”。 o 


当 要 求证 明 一 条 当 且 仅 当 定理 时 ， 在 一 个 部 分 使 用 逆 否 命题 ， 这 允许 有 几 种 选择 。 例 如 ， 
假设 要 证 明 等 价 性 E = F。 不 去 证 明 “ 如 果 x 属于 E， 则 x 属于 F” 和 “如 果 * 属 于 F， 则 x 属于 E”， 
还 可 以 把 一 个 方向 写成 逆 否 命题 。 一 种 等 价 证 明 形式 是 : 


“如 果 x 属 于 E， 则 x 属于 F， 如 果 x 不 属于 E， 则 x 不 属于 F。 
在 上 述 命题 中 ， 也 可 以 交换 ERnE。 
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1.3.3 反 证 法 
另 一 种 证 明 形 如 “如 果 有 万， 则 C” 命 题 的 方法 是 证 明 命题 
。“ 有 与 非 C 导 致 蔬 盾 ”。 


也 就 是 说 ， 从 同时 假设 前 提 有 和 结论 C 的 否定 开始 。 通 过 证 明 从 万 和 非 C 逻 辑 地 得 出 已 知 为 假 的 
东西 ， 来 完成 证 明 。 这 个 证 明 形式 称 为 反 证 法 。 


例 1.12 ”回忆 一 下 定理 1.5， 那 里 证 明了 带 有 前 提 右 的 “如 果 一 则 ”命题 五 =“U 是 无 穷 集 ， 
5 是 U 的 有 穷 子 集 ，T 是 5 关于 U 的 补 集 "。 结 论 C 是 “7 是 无 穷 的 "。 下 面 用 反 证 法 来 证 明 这 个 定理 。 
假设 “ 非 C”， 即 假设 7 是 有 穷 的 。 

这 个 证 明 就 是 从 万 和 非 C 导 出 错误 。 首 先 从 “3 和 7 都 是 有 穷 的 ”这 个 假设 来 证 明 U 也 一 定 是 
有 穷 的 。 但 由 于 在 前 提 已 中 说 0 是 无 穷 的 ， 一 个 集合 不 能 同时 是 有 穷 的 和 无 穷 的 ， 所 以 已 经 证 明 
了 这 个 逻辑 命题 “ 假 "。 用 逻辑 术语 来 说 ， 既 有 命题 。(U 是 有 穷 的 )， 又 有 其 否定 命题 ,“ 非 p” 
(U 是 无 穷 的 )。 然 后 利用 “p 与 非 p” 在 逻辑 上 等 价 于 “ 假 ” 这 个 事实 。 口 


要 证 明 为 什么 反 证 法 在 逻辑 上 是 正确 的 ， 回 忆 一 下 1.3.2 节 ，H 和 C 的 真 值 有 四 种 组 合 。 只 
有 第 二 种 情形 (AH 真 、C 假 )， 让 命题 “如 果 及 ， 则 C” 为 假 。 通 过 证 明太 和 非 C 导 致 错误 ， 就 证 
明了 情形 2 不 可 能 发 生 。 因 此 ， 仅 有 的 和 C 的 真 值 组 合 ， 就 是 让 “如 果 万 ， 则 C” 为 真 的 三 种 
组 合 。 


1.3.4 反例 


在 实际 生活 中 ， 不 会 有 人 告诉 我 们 去 证 明 一 条 定理 。 倒 不 如 说 ， 面 对 着 似乎 为 真 的 东西 
比如 实现 一 个 程序 的 策略 ， 需 要 判断 这 个 “定理 ”是 否 为 真 。 为 了 解决 这 个 问题 ， 可 以 轮流 地 
试图 去 证 明 这 个 定理 ， 如 果 证 明 不 出 ， 就 试图 去 证 明 这 个 命题 是 假 的 。 

定理 一 般 都 是 关于 无 穷 多 种 情形 (可 能 是 参数 的 所 有 值 ) 的 命题 。 的 确 ， 严 格 的 数学 约定 
只 把 有 无 穷 多 种 情形 的 命题 才 尊 称 为 “定理 ”， 而 把 没有 参数 或 者 只 有 有 穷 多 种 参数 值 的 命题 
称 为 “事实 "。 为 了 证 明 一 个 所 谓 的 定理 不 是 定理 ， 只 要 证 明 在 任何 一 种 情形 之 下 为 假 ， 这 就 足 
够 了 。 这 种 情况 类 似 于 程序 ， 因 为 如 果 一 个 程序 甚至 只 在 一 个 预期 正常 工作 的 输入 上 不 能 正确 
运行 ， 则 一 般 认 为 这 个 程序 是 有 错误 的 。 

证 明 一 个 命题 不 是 定理 ， 要 比 证 明 这 个 命题 是 定理 容易 一 些 。 前 面 说 过 ,如果 5 是 任意 命题 ， 
则 “3 不 是 定理 ”本 身 就 是 无 参数 的 命题 ， 因 此 可 看 作 事实 而 非 定理 。 下 面 是 两 个 例子 ， 第 一 个 
是 明显 的 非 定理 ， 第 二 个 是 还 不 能 断定 为 定理 的 命题 ， 在 解决 其 是 否定 理 的 问题 之 前 ， 需 要 一 
些 研究 。 


所 谓 的 定理 1.13 所 有 素数 都 是 奇数 。( 更 形式 化 地 说 : 如 果 * 是 素数 ， 则 zx 是 奇数 。) 
TE 整数 2 是 素数 ， 但 2 是 偶数 。 口 


现在 ， 讨 论 涉及 模 算术 的 一 个 “定理 "。 有 一 个 重要 的 定义 必须 首先 给 出 。 如 果 a 和 4 都 是 正 
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整数 ， 则 a mod 6b 就 是 a 除 以 b 的 余数 ， 也 就 是 说 ， 对 于 某 个 整数 g， 使 得 a = qb + r 在 0 与 5 一 1 之 间 
的 惟一 整数 r。 例 如 ，8 mod 3 = 2，9 mod 3 = 0。 先 提出 来 再 确定 为 假 的 这 个 “定理 ”是 : 


所 谓 的 定理 1.14 不 存在 整数 对 a 和 b， 使 得 a mod b=b mod a, 口 


当 需 要 处 理 成 双 的 对 象 时 ， 比 如 这 里 的 < 和 5， 利 用 对 称 性 常常 有 可 能 化 简 对 象 之 间 的 关系 。 
在 这 种 情形 下 ， 把 注意 力 集中 到 a < b 的 情形 上 ， 因 为 如 果 b < a， 则 交换 a 和 b， 就 得 到 与 所 谓 的 
定理 1.14 相 同 的 等 式 。 但 必须 小 心 ， 不 要 忘记 第 三 种 情形 a = b。 这 个 情形 在 证 明 的 尝试 中 竟然 
是 关键 的 。 

假设 a<b。 于 是 a mod b = a， 因 为 在 a mod b 的 定义 中 ， 让 g =0 和 r =a。 也 就 是 说 ， 当 a < bit, 
4=0xb+a。 但 是 bp mod a < a， 因 为 任何 数 mod a 都 是 在 0 和 a 一 1 之 间 。 因 此 ， 当 a<b 时 ，b mod a 
<a mod b， 所 以 a mod b = b mod a 是 不 可 能 的 。 利 用 上 面 的 对 称 性 论证 可 知 ， 当 b < a 时 ，a 
mod b#b moda, 

但 考虑 第 三 种 情形 ;a = b。 由 于 对 于 任意 整数 :， 有 x mod x = 0， 所 以 的 确 有 : 如 果 a = b, 
Wa mod b = b mod a。 因 此 就 推翻 了 所 谓 的 定理 : 


否 证 (所 谓 的 定理 1.14) 设 a =b=2。 则 a mod b=bmod a=0。 口 


在 寻找 反例 的 过 程 中 ， 实 际 上 已 经 发 现 了 准确 的 条 件 ， 在 这 些 条 件 下 ,， 这 个 所 谓 的 定理 成 
立 。 下 面 是 定理 的 正确 版 本 及 其 证 明 。 


定理 1.15 a mod b=bmod a， 当 上 且 仅 当 a =b。 

证 明 〈 当 部 分 ) 假设 a =b。 于 是 注意 到 上 面 ， 对 于 任意 整数 :， 有 x modx = 0。 因 此 ， 只 要 
a=b， 就 有 a mod b=bmod a=0。 

( 仅 当 部 分 ) 现在 假设 a mod b = b mod a。 最 好 的 证 明 是 反 证 法 ， 所 以 另外 假设 结论 的 否 
定 ; 也 就 是 说 ,假设 a 冯 b。 由 于 排除 了 a =b， 因 此 只 需 考虑 a < b 和 b < a 的 情况 。 

前 面 已 经 注意 到 ， 当 a < b 时 ， 有 a mod b = a 且 b mod a < a。 因 此 ， 这 些 命题 加 上 前 提 a mod 
b=b mod a 就 导出 了 矛盾 。 

根据 对 称 性 ， 如 果 b < a， 则 b mod a=b 目 a mod b < b。 再 次 导出 了 与 前 提 之 间 的 矛盾 ， 得 出 
了 仅 当 部 分 也 为 真 。 现 在 已 经 证 明了 两 个 方向 ， 就 得 出 了 这 个 定理 为 真 。 口 


1.4 归纳 证 明 


有 一 种 特殊 形式 的 证 明 ， 称 为 “归纳 证 明 ”， 当 处 理 递 归 定义 的 对 象 时 ， 它 是 必 不 可 少 的 。 许 
多 最 熟悉 的 归纳 证 明 都 处 理 整数 ， 但 在 自动 机 理论 中 ， 也 需要 归纳 证 明 处 理 递归 定义 的 概念 ， 比 
如 树 和 各 种 类 型 的 表达 式 ， 后 者 比如 1.1.2 节 中 简单 提 到 的 正则 表达 式 。 本 节 首 先 用 整数 上 的 “ 简 
单 ”归纳 法 来 介绍 归纳 证 明 的 主题 ， 然 后 说 明 如 何在 任何 递归 定义 的 概念 上 施行 “结构 ”归纳 法 。 


1.4.1 整数 上 的 归纳 法 
假设 要 证 明 给 定 的 关于 一 个 整数 n 的 命题 5(n)。 一 种 常用 的 方法 是 证 明 两 件 事 : 






































Download at http://www.pinSi.com/ 


14 KLE 





1, Rak, 对 一 个 具体 的 整数 i， 证 明 5(i)。 通 常 i=0 或 i= 1， 但 有 些 例子 中 ， 要 从 某 个 更 大 的 

开始 ， 也 许 因为 对 于 一 些小 整数 ，5 为 假 。 

2. 归纳 步骤 假设 n>i， 其 中 i 刘 基 础 整数 ,证明 “如 果 5(m)， 则 S(n + 1)”。 

直观 上 说 ， 这 两 部 分 应 当 使 人 信服 :对 所 有 大 于 或 等 于 基础 整数 的 整数 ，5(n) 都 为 真 。 可 
以 论证 如 下 。 假设 对 一 个 或 多 个 这 种 整数 ，5(n) 为 假 。 于 是 应 当 有 一 个 n 的 最 小 值 , 例 如 j， 对 于 j， 
5(j) 为 假 ,但 ji。 现 在 j 不 可 能 是 i， 因 为 在 基础 部 分 证 明了 5() 为 真 。 因 此 jj 一 定 大 于 i。 现 在 知 
道 j-1>i, 并 且 5(j 一 1) 为 真 。 

但 在 归纳 部 分 证 明了 ， 如 果 n>i WSS + 1)。 假 设 让 n = /一 1。 于 是 从 归纳 步骤 知 
道 ，S(j 一 1 蕴涵 5(j)。 由 于 也 知道 5(j 一 1)， 所 以 得 出 S(j)。 

假设 了 要 证 明 的 内 容 的 否定 ， 也 就 是 说 ， 假 设 了 对 某 介 j>i，5(j) 为 假 。 在 每 种 情况 下 ， 都 
导出 了 矛盾 ， 所 以 就 有 了 一 个 “ 反 证 法 证 明 ”: 对 所 有 n 之 i，5(n) 都 为 真 的 。 

不 幸 的 是 ， 在 上 述 推理 中 有 微妙 的 逻辑 错误 。 可 以 选 出 最 小 的 j>i， 对 于 j，5(j) 为 假 ， 这 个 
假设 依赖 于 对 最 基本 的 归纳 法 原理 的 信任 。 也 就 是 说 ， 证 明 可 以 找到 这 样 一 个 j 的 惟一 方法 是 用 
本 质 上 是 归纳 证 明 的 方法 去 证 明 。 但 上 面 讨 论 的 “证 明 ” 有 很 好 的 直观 意义 ， 与 人 们 对 真实 世 
界 的 理解 相 一 致 。 因 此 ， 在 一 般 情 况 下 ， 把 下 列 原理 作为 逻辑 推理 系统 的 组 成 部 分 : 


。 归 纳 法 原理 ， 如 果 证 明了 S(i)， 并 且 证 明了 对 所 有 n>i，S(n) 蕴 涵 S5(n + 1)， 就 可 得 出 :对 所 
Hinai, SARL. 


下 面 两 个 例子 说 明 用 归纳 法 原理 来 证 明 关 于 整数 的 定理 。 


定理 1.16 对 所 有 n>0， 
şe _ n(n +1)2n+1) 
- 6 
证 明 证 明 分 两 个 部 分 ; 基础 和 归纳 步 又， 依次 证 明 每 个 步骤 。 
基础 ， 对 于 基础 ， 选 择 n =0。 对 于 n =0， 这 个 定理 也 有 意义 ， 这 似乎 令 人 惊讶 ， 因 为 当 n =0 
时 ， 式 (1-1) 的 左 方 是 2., 。 但 有 一 个 一 般 原理 ， 当 求 和 的 上 限 (在 这 个 情形 下 是 0) 小 于 下 限 
(这 里 是 1) 时 ， 和 中 没有 任何 一 项 ， 因 此 和 为 0。 即 ， ,P=0。 
式 (1-1) 的 右边 也 是 0， 因 为 0x (0+ Dx(2x0+1)16=0。 因 此 ， 当 nm=0 时 ， 式 (1-1) 为 真 。 
归纳 : 现在 假设 x>0。 要 证 明 归纳 步骤 ， 即 式 (1-1) 蕴 涵 了 把 n 换 成 4 + 1 的 相同 公式 。 后 一 个 
公式 是 : 


(1-1) 


Şe j lab ena t ho 

把 式 (1-1) 和 式 (1-2) 右 边 的 和 与 积 展开 来 进行 化 简 。 这 些 等 式 成 为 : 
$e =(2n +3n° +n)/6 a-3 
Si -Qn +9n° +13n+6)/6 (1-4) 


要 用 式 (1-3) 来 证 明 式 (1-4)， 因 为 在 归纳 法 原理 中 ， 这 些 等 式 分 别 是 命题 5(n) 和 5S(n + 1)。“ 技 巧 ” 
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是 : 把 式 (1-4) 左 边 到 n + 1 的 和 分 解 为 到 n 项 的 和 加 上 第 n + 1 项 。 通 过 这 种 方法 ?把 到 n 的 和 换 成 
式 (1-3) 的 左边 并 证 明 式 (1-4) 为 真 。 这 些 步骤 如 下 : 


(32) +n = Cm rn +13n+ O16 (1-5) 
(Qn +3n? +n)/6+ (n° +2n+1)=(2n° +9n +13n+6)/6 (1-6) 
最 后 验证 式 (1-6) 为 真 只 需要 在 左边 用 简单 的 多 项 式 代数 ， 就 证 明 左 方 与 右 方 相等 。 o 


例 1.17 ”下 一 个 例子 证 明 1.2.1 节 中 的 定理 13。 回 忆 一 下 ， 这 个 定理 说 ; m>, M>, 
当 x 增 大 到 4 以 上 时 ，z2/2* 的 比值 缩小 ， 基 于 这 种 想法 给 出 过 一 个 非 形 式 化 的 证 明 ; 如果 从 基础 x = 
4 开始 ， 用 x* 上 的 归纳 法 来 证 明 命题 2 > 忆 ， 就 可 把 这 个 想法 精确 地 表达 出 来 。 注 意 ， 对 于 x < 4， 
这 个 命题 实际 上 为 假 。 

MAH: AOR =4, M2" Fe AE 16, Ak, >L wear. 

归纳 : 假设 对 于 某 个 xz>4，2*> 局 。 以 这 个 命题 作为 前 提 ， 需 要 证 明 用 x + 1 代替 x 的 相同 命 
题 ， 也 就 是 说 ，2** 9>[x + 1?。 这 些 就 是 归纳 法 原理 中 的 命题 5(x) 和 5(x + 1)， 用 x 而 不 用 n 作 为 
参数 ， 这 不 应 当 引 起 疑问 ，x 或 "只 是 一 个 局 部 变量 。 

像 在 定理 1.16 中 那样 ， 应 当 改 写 SGe + 1)， 以 便利 用 SGx)。 在 这 个 例子 中 ， 把 2 * 1 写成 2x 2:。 
由 于 SQ) 说 2> 邓 ， 所 以 得 出 2:*'= 2 x 2222, 

但 是 需要 不 同 的 东西 ， 和 需要 证 明 2"*'>(x + D)。 证 明 这 个 命题 的 一 种 方法 是 证 明 22>(x + 1), 
然后 用 > 的 传递 性 来 证 明 2"*:>22> (+ 1, 在 


22>G+ 1? a7) 
的 证 明 中 ， 可 利用 x> 4 的 假设 。 首 先 化 简 式 (1-7); 
R22741 (1-8) 
把 式 (1-8) 除 以 x+， 得 到 : 
x>2+1 (1-9) 


x 
由 于 x>4， 所 以 知道 1x< 1/4。 因 此 ， 式 (1-9) 的 左边 至 少 是 4， 右 边 至 多 是 225。 因 此 证 明了 
式 (1-9) 的 真实 性 。 因 此 ， 式 (1-8) 和 式 (1-7) 也 为 真 。 式 (1-7) 依 次 给 出 : 对 于 x>4，2x>(x + 12, 并 
允许 证 明 命 题 S(x + 1)， 回 忆 一 下 ， 这 就 是 2"*!> (x + D?。 口 
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整数 作为 递归 定义 的 概念 


前 面 说 过 ， 当 讨论 对 象 被 递归 定义 的 时 候 ， 归 纳 证 明 是 有 用 的 。 但 是 第 一 个 例子 是 整 
数 上 的 归纳 法 ， 通 常 不 认为 整数 是 “递归 定义 的 "。 然 而 ， 当 一 个 数 是 非 负 整数 时 ， 就 有 
一 个 自然 的 递归 定义 ， 而 且 这 个 定义 的 确 与 整数 上 的 归纳 法 的 进行 方式 相 匹配 : 从 先 定义 
的 对 象 到 后 定义 的 对 象 。 

基础 : 0 是 整数 。 

归纳 :如 果 n 是 整数 ， 则 n+ 1 也 是 整数 。 
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14.2 更 一 般 形式 的 整数 归纳 法 


1.4.1 节 提出 : 对 一 个 基础 值 ， 证 明 命题 S$， 然 后 证 明 “ 如 果 S(n)， 则 5S(n + D”。 有 时 候 ， 只 
有 利用 比 这 个 模式 更 一 般 的 模式 ， 才 能 让 一 个 归纳 证 明成 为 可 能 。 这 个 模式 的 两 种 重要 推广 是 : 
1. 利 用 多 个 基础 情形 。 也 就 是 说 ， 对 某 个 > i， 证 明 S(D), S+ 1),…, 5(j)。 
2. 在 证 明 S(n + D 时 ， 利 用 所 有 命题 
SÒ, SG + 1), =, Sn) 
的 真实 性 ， 而 不 只 利用 5(m) 的 。 而 且 ， 如 果 证 明了 直到 5(j ) 的 基础 情形 ， 就 假设 n>j， 而 
不 只 假设 n>i。 
由 这 个 基础 和 归纳 步 又 得 到 的 结论 是 : 对 所 有 mn> i，SCn) 为 真 。 


例 1.18 下面 的 例子 说 明 这 两 个 原理 的 潜力 。 要 证 明 的 命题 sm) 是 : 如 果 m>8， 则 mw 可 写成 3 
与 之 和 。 注 意 ， 顺 便 说 一 下 ，7 不 能 写成 3 与 5 之 和 。 

基础 : 基础 情形 是 5(8)、5(9) 和 3S(10)。 证 明 分 别 是 ; 8=3+5, 9=3+3+3, 10=5+5, 

归纳 : 假设 n>10 并 且 5(8), 5(9),…,S(n) 都 为 真 。 要 从 这 些 已 知事 实 来 证 明 S(n + 1)。 策 略 是 ， 从 
n+ ] 减 3， 注 意 这 个 数 一 定 能 写成 3 与 5 之 和 ， 然 后 在 这 个 和 中 再 加 入 一 个 3， 来 得 到 写 n+ 1 的 方法 。 

更 形式 化 地 说 ， 注 意 n 一 2>8， 所 以 可 假设 S(n 一 2)。 也 就 是 说 ， 对 于 某 个 整数 a 和 b，n 一 2 = 
3a+5b。 于 是 n+ 1=3+3a+5b， 所 以 n+ 1 可 写成 a + 1 个 3 与 bp 个 5 之 和 。 这 证 明了 S(n+ 1)， 并 完 
成 了 归纳 步骤 。 口 


14.3 结构 归纳 法 


在 自动 机 理论 中 有 许多 递归 定义 的 结构 ， 需 要 证 明 关于 这 些 结构 的 命题 。 熟 悉 的 树 和 表达 
式 的 概念 都 是 重要 的 例子 。 像 归纳 法 一 样 ， 所 有 的 递归 定义 都 有 基础 情形 和 归纳 步 台 ， 基 础 情 
形 定义 一 个 或 多 个 基本 结构 ， 归 纳 步 又 用 前 面 定义 的 结构 来 定义 更 复杂 的 结构 。 


例 1.19 下 面 是 树 的 递归 定义 : 
基础 : 单个 顶点 是 树 ， 这 个 顶点 是 树 的 根 。 M) 
WMA: BET, Ta, o, THAR, METERSE 


所 示 : 
1. 从 新 顶点 N 开 始 ，N 是 树 的 根 。 A a oo o k 
2. 添加 所 有 树 的 Ti, Ta, ++, Ti 的 副本 。 
3. 添加 从 顶点 N 到 每 棵 树 7i, Ta, …, Ti 的 根 的 边 。 图 1-7 一 棵 树 的 归纳 构造 
1-7 显 示 了 从 k 棵 较 小 的 树 到 一 棵 带 有 根 N 的 树 的 归纳 构造 。 口 


例 1.20 下 面 是 另 一 个 递归 定义 。 这 次 用 算术 运算 + 和 * 来 定义 表达 式 ， 同 时 人 允许 数 和 变量 来 
作为 运算 数 。 

基础 : 任意 数 或 字母 ( 即 变量 ) 都 是 表达 式 。 

归纳 : 如 果 E 和 F 是 表达 式 ， 则 E+ F、E*F 和 (E) 也 是 表达 式 。 

例如 ， 根 据 基础 ，2 和 x 都 是 表达 式 。 归 纳 步骤 说 + + 2、(x + 2) 和 2*(x + 2) 都 是 表达 式 。 注 意 
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每 个 表达 式 是 如 何 依赖 于 前 面 的 表达 式 的 。 口 





结构 归纳 法 背后 的 直观 


可 以 非 形式 化 地 提示 一 下 ， 为 什么 结构 归纳 法 是 有 效 的 证 明 方法 。 想 像 一 下 ， 递 归 定 
义 逐 个 地 证 明 : 一 些 结构 Xi X,… 都 满足 这 个 定义 。 首 先是 基础 元 素 ， 然 后 是 入 属 于 所 定 
义 的 结构 集合 这 个 事实 ， 它 只 依赖 于 在 表 中 X 之 前 的 那些 结构 在 所 定义 集合 中 的 成 员 性 。 
从 这 个 角度 来 看 ， 结 构 归 纳 法 只 不 过 是 命题 5(X,) 在 整数 n+ 上 的 归纳 法 。 这 种 归纳 法 可 以 具 
有 1.4.2 节 讨论 过 的 推广 形式 ， 带 有 多 种 基础 情形 和 一 个 利用 前 面 所 有 命题 实例 的 归纳 步骤 。 
但 应 当 记 住 ， 如 在 1.4.1 节 所 解释 的 那样 ， 这 种 直观 不 是 形式 化 的 证 明 ， 事 实 上 ， 与 假设 了 
本 节 中 原 归纳 法 原理 的 有 效 性 一 样 ， 必 须 假设 这 个 归纳 法 原理 的 有 效 性 。 











当 有 了 递归 定义 时 ， 就 可 用 下 列 证 明 形式 ( 称 为 结构 归纳 法 ) 来 证 明 关于 这 个 定义 的 定理 。 
设 SCO 是 关于 结构 X 的 命题 ，X 是 用 某 个 具体 的 递归 定义 来 定义 的 。 
1. 作为 基础 ， 对 基础 结构 X， 证 明 SCO。 
2. 对 于 归纳 步 台 ， 用 递归 定义 说 明 从 Yi, Yo, …, 玫 形 成 的 结构 X。 假设 命题 $(Y,), SO), …， 
5(YD 成 立 ， 用 这 些 来 证 明 S(X)。 
结论 是 ， 对 所 有 X，S(X) 都 为 真 。 下 面 两 条 定理 是 可 以 证 明 关于 树 和 表达 式 的 事实 的 例子 。 


定理 1.21 每 棵 树 都 是 顶点 数 比 边 数 多 一 。 
证 明 要 用 结构 归纳 法 证 明 的 形式 化 命题 S(T) 是 :“ 如 果 7 是 树 ， 且 7 有 n 个 顶点 和 e 条 边 ， 则 
n=e+1"。 
基础 : 基础 情形 是 当 7 是 单个 顶点 时 。 于 是 n= 1 He =0, 所 以 关系 ?= e+ 1 成立。 
归纳 : 设 7 是 根据 定义 的 归纳 步 又 从 根 顶 点 N 和 X 个 较 小 的 树 夏 ,五 Ta 构造 出 的 树 。 可 以 
假设 对 于 i= 1,2,…,k， 命 题 5(Ti) 都 成 立 。 也 就 是 说 ， 设 有 nm 个 顶点 和 e, 条 边 ， 则 m= e+ 1。 
7 的 顶点 是 顶点 N 和 所 有 Ti 的 顶点 。 因 此 7 中 有 1 + m+ mtt me ATs 7 的 边 是 归纳 定义 
步 又 中 明确 添加 的 k 条 边 ， 加 上 Ti 的 边 。 因 此 ，7 有 
kteiter+ + er (1-10) 
条 边 。 如 果 在 7 的 顶点 计数 中 把 m 换 成 e+ 1， 则 发 现 T 有 
1+[ei+ 了 J+[e+ 了 +…+[et+ 了 (1-11) 
个 项 点。 由 于 式 (1-10) 中 有 kt 个 “+1” SB, TUERO-IDRK HAH 


大 十 工 + el 十 ez 十 … 十 EK (1-12) 


这 个 表达 式 恰好 比 给 出 作为 7 的 边 数 的 式 (1-10) 的 表达 式 多 1。 因 此 ， 7 的 顶点 比 边 多 一 个 。 口 


定理 1.22 每 个 表达 式 都 有 相等 数目 的 左右 括号 。 

证 明 ”形式 化 地 ， 按 例 1.20 的 递归 来 定义 的 任意 表达 式 G， 证 明 关于 G 的 命题 5(G): G 中 左右 
括号 数目 相等 。 

基础 如果 G 是 基础 定义 的 ， 则 G 是 数 或 变量 。 这 些 表达 式 都 有 0 个 左 括号 和 0 个 右 括号 ;所 
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以 左右 括号 数目 相等 。 

归纳 : 根据 定义 中 的 归纳 步骤 ， 可 有 三 条 规则 把 G 构 造 出 来 : 

1.G=E+F, 3 

2.G= ExrF。 

3.G=(E). 

假设 5S(E) 和 5S(F) 都 为 真 ， 也 就 是 说 ，E 有 相同 数目 的 左右 括号 ， 比 方 说 各 有 n 个 ，F 同 样 有 相 
同 数目 的 左右 括号 ， 比 方 说 各 有 m 个 。 于 是 分 别 对 这 三 种 情形 ， 计 算 G 中 左右 括号 数 : 

1. 如 果 G =EE+F， 则 G 有 n+m 个 左 括号 和 n + m 个 右 括号 ， 各 自 有 n 个 来 自 E，m 个 来 自 F。 

2. 如果 G = ExF， 则 G 的 左右 括号 数 各 自 还 是 n + m， 理 由 与 情形 (1) 相 同 。 

3. 如 果 G = (E)， 则 G 中 有 n + 1 个 左 括号 ， 已 经 明确 显示 了 一 个 左 括号 ， 其 他 n 个 都 在 E 中 。 

同样 ，G 中 有 n+ 1 个 右 括号 ， 一 个 是 明确 的 ， 其 他 n 个 都 在 E 中 。 

在 这 三 种 情形 的 每 种 情形 下 都 看 到 ，C 中 左右 括号 数 是 相同 的 。 这 个 事实 就 完成 了 归纳 步骤 ， 

也 完成 了 证 明 。 口 


1.4.4 互 归纳 法 


有 时 候 ， 不 能 用 归纳 法 证 明 单 个 的 命题 ， 倒 不 如 说 ， 用 n 上 的 归纳 法 来 同时 证 明 一 组 命题 
Sin), Sz(m),…, Si (n)。 自 动机 理论 出 现 许多 这 种 情况 。 例 1.23 举 了 一 种 常见 情况 的 例子 ， 对 每 个 
状态 都 有 一 个 命题 ， 通 过 证 明 这 组 命题 来 解释 自动 机 做 什么 。 这些 命 是 说明， 在 什么 样 的 输入 
序列 下 ， 自 动机 进入 这 个 状态 。 

严格 地 说 ， 证 明 一 组 命题 ， 与 证 明 所 有 命题 的 合 取 (逻辑 与 ， AND) 是 没有 区 别 的 。 例 如 ， 
可 以 把 一 组 命题 S$,(n), SAn), …, Se (n) 换 成 单个 命题 ，51(n) AND Sz(n) AND…AND St(n)。 但 当 实 际 
要 证 明 几 个 独立 的 命题 时 ， 保 持 命题 的 独立 与 在 各 自 的 基础 和 归纳 步骤 部 分 中 证 明 命题 ， 通 常 
较 少 引起 混 清 。 称 这 种 证 明 为 互 归 纳 法 。 一 个 例子 会 说 明 互 递归 的 必要 步 又 。 


例 1.23 ”重新 考虑 一 下 两 相 开关 ， 例 1.1 中 把 这 个 开关 表示 成 自动 机 。 把 这 个 自动 机 本 身 复 
制 如 图 1-8 所 示 。 由 于 按 下 按钮 就 在 状态 on (FF) 和 of ( 关 ) 之 间 切 换 ， 而 且 从 状态 of 开始 切换 ， 
所 以 预期 下 面 的 命题 一 起 解释 了 这 个 开关 的 运行 : 

Si(n): 在 按 了 n 次 之 后 自动 机 处 在 of 状态 ， 当 且 仅 当 n 是 偶数 。 

Sn): 在 按 了 n 次 之 后 自动 机 处 在 on 状态 ， 当 且 仅 当 n 是 奇数 。 

可 能 假设 :5 蕴涵 52:， 反 之 亦 然 ， 因 为 数 n 不 可 能 同时 为 奇数 和 偶数 。 但 自动 机 处 在 一 个 状 
态 并 且 只 处 在 一 个 状态 ， 这 并 不 总 为 真 。 图 1-8 的 自动 机 碰巧 一 直 
处 在 恰好 一 个 状态 中 ， 但 这 个 事实 必须 作为 互 归纳 法 的 一 部 分 来 
进行 证 明 。 

下 面 给 出 命题 5.(m) 和 52(n) 的 证 明 的 基础 和 归纳 部 分 。 这 些 证 明 
依赖 于 关于 奇数 和 偶数 的 几 个 事实 : 如 果 从 偶数 加 减 1， 就 得 到 奇 
数 ， 如 果 从 奇数 加 减 1， 就 得 到 偶数 。 图 1-8 重复 图 1-1 的 自动 机 

基础 : 对 于 基础 ， 选 择 n = 0。 由 于 有 两 个 命题 ， 必 须 在 两 个 方向 证 明 每 个 命题 <《 因 为 Si 和 S$; 
各 自 都 是 “ 当 且 仅 当 ”命题 )， 实 际 上 有 四 种 基础 情形 ， 也 有 四 种 归纳 情形 。 
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1.[S,， 当 ] 由 于 0 是 偶数 ， 就 必须 证 明 : 在 按 了 0 次 之 后 ， 图 1-8 的 自动 机 处 在 off 状 态 。 由 于 
off 状 态 是 初始 状态 ， 在 按 了 0 次 之 后 ， 自 动机 的 确 是 在 of 状态 。 

2.[S1， 仅 当 ] 由 于 按 了 0 次 之 后 ， 自 动机 处 在 off 状 态 ， 所 以 必须 证 明 0 是 偶数 。 但 根据 “ 偶 
数 ”的 定义 ，0 是 偶数 ， 所 以 没有 什么 要 证 明 的 了 。 

3. [S25 当 ] S: 的 “ 当 ” 部 分 的 前 提 是 : 0 是 奇数 。 由 于 这 个 前 提 刀 是 假 的 ， 如 在 1.3.2 节 讨论 过 
的 那样 ， 任 何 形 如 “如 果 万 ， 则 C” 的 命题 都 为 真 。 因此， 基础 的 这 个 部 分 也 成 立 。 

4. [S 仅 当 ] 在 按 了 0 次 之 后 ， 自 动机 处 在 on 状态 ， 这 个 前 提 也 是 假 的 ， 因 为 到 达 状 态 on 的 
惟一 方式 是 遵循 一 条 带 Push 标 记 的 箭头 ， 这 要 求 至 少 按 一 次 按钮 。 由 于 这 个 前 提 为 假 ， 
所 以 又 得 出 这 个 “如 果 一 则 ”命题 为 真 。 

归纳 : 现在 假设 Si(n) 和 52(m) 都 为 真 ， 并 尝试 证 明 Si(n + 1) 和 5Sz(n + 1)。 同 样 ， 证 明 分 成 四 个 

部 分 。 

1. [Sin + 1)， 当 ] 这 部 分 的 前 提 是 : n + 1 是 偶数 。 因 此 ，n 是 奇数 。 命 题 52(n) 的 “ 当 ” 部 分 
说 : 按 了 n 次 之 后 ， 自 动机 处 在 on 状态 。 从 on 到 ofif 带 Push 标 记 的 箭头 说 明 ， 第 n + 1 次 按 动 
会 导致 自动 机 进入 状态 off。 这 就 完成 了 51(n+ D 的 “ 当 ” 部 分 的 证 明 。 

2.[Si(n+ Ds 仅 当 ] 前 提 是 : 按 了 n+ 1 次 之 后 ， 自 动机 处 在 of 状态 。 由 于 n + 1 >0， 检 查 图 1-8 
的 自动 机 就 说 明 ， 到 达 状 态 of 的 惟一 可 能 方式 是 ， 处 在 状态 on 中 并 收 到 输入 Push。( 另 外 一 
种 可 能 方式 是 ， 由 于 off 状 态 是 初始 状态 ， 如 果 n+ 1 = 0， 则 在 按 了 nm + 1 = 0 次 之 后 ， 自 动机 
在 of 状态 中 。 现 在 由 于 n + 1 > 0， 所 以 排除 了 这 种 方式 。) 因此 ， 如 果 在 按 了 n + 1 次 之 后 ， 
处 在 状态 off 中 ， 则 在 按 了 n 次 之 后 ， 一 定 处 在 状态 on 中 。 于 是 ， 用 命题 $2(n) 的 “ 仅 当 ”部 
分 来 得 出 n 是 奇数 。 因 此 ，n+ 1 是 偶数 ， 这 就 是 Sin + 1) 的 仅 当 部 分 所 要 的 结论 。 

3.[Sz(n + 1)， 当 ] 这 部 分 本 质 上 与 第 (1) 部 分 相同 ， 把 命题 $, 和 5; 的 角色 互 换 ， 把 “ 奇 和 
“ 偶 ” 的 角色 互 换 。 读 者 应 当 能 够 很 容易 地 构造 出 这 部 分 证 明 。 

4.[Sz(n + 1), 仅 当 ] 这 部 分 本 质 上 与 第 (2) 部 分 相同 ， 把 命题 % 和 53: 的 角色 互 换 ， 把 “ 奇 ”和 
“ 偶 ” 的 角色 互 换 。 口 


从 例 1.23 中 抽象 出 所 有 的 互 归纳 法 的 模式 : 
* 在 基础 和 归纳 步骤 中 ， 必 须 分 别 证 明 每 个 命题 。 
“如 果 命题 是 “ 当 且 仅 当 ”， 则 在 基础 和 归纳 中 ， 必 须 证 明 每 个 命题 的 两 个 方向 。 


1.5 自动 机 理论 的 中 心 概念 


本 节 介绍 贯穿 自动 机 理论 的 术语 的 最 重要 的 定义 。 这 些 概念 包括 “字母 表 ” (符号 集合 ) 、 
“ 串 ”( 字 母 表 中 符号 的 列 ) 和 “语言 ”( 相 同 字母 表 中 串 的 集合 )。 


1.5.1 字母 表 


字母 表 是 符号 的 有 穷 非 空 集合 。 约 定 俗 成 ， 用 符号 2 表示 字母 表 。 常 见 字母 表 包 括 : 
1. X ={0,1}, 二 进 制 字母 表 。 

2. 三 = {a,b,…,z}， 所 有 小 写字 母 的 集合 。 

3. 所 有 ASCI 字 符 的 集合 ， 或 者 所 有 可 打印 的 ASCI 字 符 的 集合 。 
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15.2 种 


囊 (有 时候 称 为 单词 ) 是 从 某 个 字母 表 中 选择 的 符号 的 有 穷 序列 。 例 如 ，01101 是 从 二 进 制 
字母 表 卫 = {0, 1} 中 选 出 的 串 ， 串 111 是 从 这 个 字母 表 中 选择 的 另 一 个 串 。 

1521 2% 

空 事 是 出 现 0 次 符号 的 串 。 这 个 串 记 作 e， 是 可 从 任何 字母 表 中 选择 的 串 。 

1522 事 的 长 度 

根据 串 的 长 度 ( 即 串 中 符号 的 位 数 ) 来 对 串 进行 分 类 ， 这 常常 是 有 用 的 。 例 如 ，01101 长 度 
为 5。 通 常 说 ， 串 的 长 度 就 是 这 个 串 中 的 “符号 数 ”， 口 头 上 可 接受 这 个 命题 ,但 严格 地 说 这 是 
不 对 的 。 因 此 ， 在 串 01101 中 ， 只 有 两 个 符号 0 和 1， 但 有 5 个 符号 位 ， 所 以 其 长 度 为 5。 但 是 ， 当 
想 说 “位 数 ” 时 ， 一 般 就 会 想 使 用 “符号 数 ”。 

申 w 的 长 度 的 标准 记号 是 wl。 例 如 ，I0111= 3，lal = 0。 

1523 FRR 

如 果 是 一 个 字母 表 ， 就 可 用 指数 记号 来 表示 这 个 字母 表 某 个 长 度 的 所 有 串 的 集合 。 定 
义 3 是 长 度 为 /的 串 的 集合 ， 串 的 每 个 符号 都 属于 I. 


例 1.24 注意 无 论 是 什么 字母 表 ，2"= {s}。 就 是 说 ，s 是 长 度 为 0 的 惟一 的 串 。 

MR T= {0,1}, 则 2'= {0,1}, °= {00,01, 10, 11}，223= {000, 001, 010, 011, 100, 101, 
110, 111}， 依 此 类 推 。 注 意 ， 在 2 与 2! 之 间 有 细微 的 区 别 。 前 者 是 字母 表 ， 基 成员 0 和 1 都 是 符 
号 。 后 者 是 一 些 审 的 集合 ， 其 成 员 都 是 串 0 和 1， 每 个 串 的 长 度 都 是 1。 我 们 不 打算 用 不 同 的 记号 
来 表示 这 两 个 集合 ， 根 据 上 下 文 来 区 分 {0, 1 或 类 似 的 集合 究竟 是 字母 表 还 是 串 的 集合 。 口 





符号 与 串 的 类 型 约定 


通常 ， 用 字母 表 开头 的 小 写字 母 (或 数字 ) 来 表示 符号 ， 用 字母 表 靠 近 示 尾 的 小 写字 
母 来 表示 串 ， 典 型 的 是 w, x, > 和 z。 读 者 要 试 着 习惯 这 个 约定 ， 来 帮助 提示 出 所 讨论 的 元 素 





的 类 型 。 
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字母 表 3 上 所 有 的 串 的 集合 约定 记 作 E. Hán, {0,17 = {e,0, 1, 00, 01, 10, 11,000, …}。 

换 句 话说 ， 
了 = FU P'U BU- 

有 时候， 希望 从 串 集合 中 排除 空 串 。 把 字母 表 了 上 非 空 串 的 集合 记 作 D+ 
的 等 价 性 是 : 

e dts SIU PU PU- 

e t= 5+U{e} 

15.24 事 的 连接 

设 x 和 y 都 是 串 。 于 是 ，x9 表 示 x 和 ?的 连接 ， 就 是 说 ， 用 x 的 一 个 副本 后 面 跟着 ?的 一 个 副本 所 
形成 的 串 。 更 准确 地 说 ， 如 果 * 是 包含 i 个 符号 的 串 x= aia…ai , YEE JME SAB = bibr bj, 
则 wy 是 长 度 为 i+j 的 申 : xy = aar abbr b 


此 ， 两 个 正确 





Download at http://www.pinSi.com/ 


自动 机 : 方法 与 体验 27 





例 1.25 设 r=01101 目 y=110。 则 xy =01101110 目 yx = 11001101。 对 任意 串 w， 等 式 ev = we= w 
成 立 。 就 是 说 ，s 是 连接 的 单位 元 ， 因 为 当 E 与 任意 一 个 串 连 接 时 ， 都 产生 另外 这 个 串 作为 结果 
(这 类 似 于 加 法 的 单位 元 0，0 加 上 任意 数 x， 都 产生 x 作 为 结果 ) 。 口 


1.5.3 语言 


是 某 个 具体 的 字母 表 ， 全 都 从 于 "中选 出 的 串 的 一 个 集合 称 为 语言 。 如 果 是 字母 表 ， 且 
LC 3"， 则 LL 是 了 上 的 语言 。 注 意 ，Z 上 的 语言 不 必 包 含 带 有 23 所 有 符号 的 串 ， 所 以 ， 一 旦 确定 
ZL 是 上 的 语言 ， 也 就 知道 了 L 是 任何 是 2 的 超 集 的 字母 表 上 的 语言 。 

选择 “语言 ”这 个 术语 ， 这 似乎 很 奇怪 。 但 普通 的 语言 都 可 看 作 串 的 集合 。 一 个 例子 就 是 
英语 ， 合 法 英语 单词 全 体 就 是 包含 所 有 字母 的 字母 表 上 的 串 的 集合 。 另 一 个 例子 是 C 语 言 或 任何 
其 他 程序 设计 语言 ， 其 中 合法 程序 就 是 从 这 个 语言 的 字母 表 形 成 的 可 能 的 串 的 子 集合 。 这 个 字 
母 表 是 ASCI 字 符 的 一 个 子 集 。 在 不 同 的 程序 设计 语言 之 间 ， 准 确 的 字母 表 可 能 稍 有 不 同 ， 但 通 
常 都 包括 大 小 写字 母 、 数 字 、 标 点 符号 和 数学 符号 。 

但 在 研究 自动 机 时 ， 也 有 许多 其 他 语言 。 有 些 是 抽象 的 例子 ， 比 如 : 

1. 对 某 个 n>0，n 个 0 后 面 跟着 n 个 1， 所 有 这 样 的 串 的 语言 : {,01,0011,000111, …}。 

2.0 和 1 个 数 相 等 的 串 的 集合 ，{e,01, 10, 0011,0101, 1001, …}。 

3, 值 为 素数 的 二 进 制 数 的 集合 ; {10, 11, 101, 111, 1011, …}。 

4. 对 任意 字母 表 卫 ， 了 是 一 个 语言 。 

5. 空 语言 C 是 任意 字母 表 上 的 语言 。 

6. 只 包含 空 串 的 语言 { 也 是 任意 字母 表 上 的 语言 。 注 意 Oz#{fe}j， 前 者 没有 串 ， 后 者 有 一 

Ah. 

关于 什么 是 语言 ， 惟 一 重要 的 约束 就 是 所 有 字母 表 都 是 有 穷 的 。 因 此 语言 可 以 有 无 穷 多 个 串 ， 
但 限制 这 些 串 为 从 一 个 固定 的 有 穷 字母 表 取 出 的 。 


1.5.4 问题 


在 自动 机 理论 中 ， 一 个 问题 就 是 判定 一 个 给 定 的 串 是 否 属于 某 个 具体 语言 的 提问 。 将 要 看 
到 ， 任 何在 口头 上 称 为 “问题 ”的 东西 ， 竟 然 都 可 以 表示 成 语言 的 成 员 性 。 更 准确 地 说 ， 如 
果 是 字母 表 ，/ 是 2 上 的 语言 ， 则 问题 [就 是 : 


HEL HN Tw, Hew SRL, 


例 1.26 检验 素数 性 问题 可 表示 成 语言 [,，L, 包含 所 有 值 为 素数 的 二 进 制 囊 。 就 是 说 ， 给 定 
0 和 1 的 一 个 串 ， 如 果 这 个 串 是 一 个 素数 的 二 进 制 表示 ， 就 说 “是 ”， 否 则 ， 就 说 “ 否 "。 对 某 些 
串 ， 这 种 判定 是 容易 的 。 例 如 ，0011101 不 是 素数 的 表示 ， 因 为 简单 的 原因 : 除 0 之 外 每 个 整数 
的 二 进 制 表示 都 以 1 开头 。 但 囊 11101 是 否 属于 L,， 这 就 不 明显 了 。 这 个 问题 的 任何 解法 都 需要 
使 用 大 量 的 某 种 计算 资源 ， 例 如 时 间 和 (或 ) 空间 。 口 
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集合 表示 法 作为 一 种 定义 语言 的 方式 
常常 用 “集合 表示 法 ”: 
{w1w 如 此 这 般 } 

来 描述 一 个 语言 。 这 个 表达 式 读 作 “单词 w 的 集合 ,使 得 ( 竖 线 右边 关于 w 所 说 的 任何 话 )”。 
一 些 例子 是 : 

1. {w lw 包含 相同 个 数 的 0 和 1}。 

2. {w 1w 是 二 进 制 素数 }。 

3. {w1w 是 语法 正确 的 C 程 序 }。 
还 常常 把 w 换 成 某 个 带 参 数 的 表达 式 ， 通 过 叙述 参数 的 条 件 来 描述 语言 中 的 串 。 这 里 是 一 
些 例子 ， 第 一 个 例子 带 参数 +， 第 二 个 例子 带 参数 ij 和 j: 

1.{0"1" 1 n 之 1}。 读 作 “0 的 n 次 方 、1 的 n 次 方 的 集合 ， 使 得 n 大 于 等 于 1"。 这 个 语言 包 

含 串 {01, 0011, 000111,…}。 注 意 ， 与 字母 表 一 样 ， 可 以 用 单个 符号 的 n 次 吞 来 表示 n 

个 这 种 符号 。 

2. {01V10<i< 放 ， 这 个 语言 包含 一 些 0 (可 能 没有 ) 后 面 跟着 至 少 这 么 多 1 的 串 。 








“问题 ”的 定义 的 一 个 可 能 不 令 人 满意 的 方面 是 ， 人 们 常常 不 认为 问题 是 判定 问题 (以 下 是 
否 为 真 ?》) ， 而 认为 是 计算 或 变换 某 个 输入 的 请 求 〈( 找 出 完成 这 个 任务 的 最 佳 方法 )。 例 如 ， 在 
形式 化 意义 下 ， 可 把 C 编 译 器 中 语法 分 析 器 的 任务 看 作 一 个 问题 ， 其 中 给 定 一 个 ASCII 串 ， 要 求 
判定 这 个 串 是 否 属于 Lc， 即 合法 C 程 序 的 集合 。 但 语法 分 析 器 要 比 判 定做 得 更 多 。 语 法 分 析 器 
产生 语法 分 析 树 、 符 号 表 中 的 项 目 ， 可 能 还 有 其 他 东西 。 更 有 甚 者 ， 整 个 编译 器 解决 了 把 C 程 
序 转化 为 某 种 机 器 的 目标 代码 的 问题 ， 这 就 远 不 是 对 程序 的 合法 性 问题 简单 地 回答 “是 ”或 
“ 否 ”的 问题 了 。 

不 过 ， 作 为 语言 的 “问题 ”的 定义 ， 已 经 经 受 了 时 间 的 检验 ， 成 为 处 理 复杂 性 理论 重要 问 
题 的 正确 方法 。 在 这 个 理论 中 ， 兴 趣 在 于 证 明 某 些 问题 的 复杂 性 的 下 界 。 特 别 重要 的 是 证 明 不 
能 在 少 于 输入 规模 的 指数 时 间 内 解决 某 些 问题 的 技术 。 已 知 问题 的 是 / 否 或 基于 语言 的 版 本 ， 与 
“ 求 出 这 个 ”的 版 本 ， 在 这 个 意义 下 竟然 是 一 样 难 的 。 

也 就 是 说 ， 如 果 可 以 证 明 判定 一 个 给 定 的 串 是 否 属 于 语言 Lx (Lx 是 程序 设计 语言 X 中 合法 的 
串 的 集合 ) 是 困难 的 ， 那 么 就 推出 了 ， 把 语言 X 的 程序 翻译 成 目标 代码 不 是 比较 容易 的 。 因 为 如 
果 容 易 产生 代码 ， 就 可 以 运行 翻译 器 ， 得 出 恰好 当 翻 译 器 成 功 产生 目标 代码 时 ， 输 入 是 Lx 的 合 
法 成 员 。 由 于 确定 是 否 产生 了 目标 代码 的 最 后 一 步 并 不 困难 ， 所 以 可 用 产生 目标 代码 的 快速 算 
法 来 有 效 地 判定 Lx 的 成 员 性 。 因 此 与 检验 Lx 的 成 员 性 是 困难 的 这 个 假设 相 耶 盾 。 已 经 用 反 证 法 
证 明了 命题 “如 果 检 验 Lx 的 成 员 性 是 困难 的 ， 则 程序 设计 语言 的 编译 程序 也 是 困难 的 ”。 

用 一 个 问题 的 假设 有 效 算 法 来 有 效 解决 另 一 个 已 知 的 困难 问题 ， 来 证 明 这 个 问题 是 困难 的 ， 
这 种 技术 称 为 第 二 个 问题 到 第 一 个 问题 的 “ 归 约 "。 在 问题 的 复杂 性 研究 中 ， 这 种 技术 是 必 不 可 
少 的 工具 ， 大 大 得 益 于 下 面 这 样 的 概念 : 问题 都 是 关于 语言 成 员 性 的 提问 而 不 是 更 一 般 类 型 的 
提问 。 
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是 语言 还 是 问题 ? 


语言 和 问题 其 实 是 相同 的 东西 。 倾 向 于 使 用 哪 种 术语 依赖 于 所 采取 的 观点 。 当 只 关心 
申 本 身 时 ， 如 在 集合 {0"1" 1m> 匡 中 ， 就 倾向 于 认为 串 的 集合 是 语言 ; 在 本 书 最 后 一 章 ， 倾 
向 于 给 串 赋予 “语义 "， 如 认为 串 编码 了 图 、 逻 辑 表达 式 甚至 偶数 等 在 这 些 情 形 下 ， 对 
串 所 表示 的 东西 的 关心 超过 了 对 串 本 身 的 关心 ， 就 倾向 于 认为 串 的 集合 是 问题 。 








1.6 小 结 


* 有 穷 自 动机 : 有 穷 自动 机 涉及 一 些 状态 和 当 响 应 输入 时 在 状态 之 间 的 转移 ， 用 来 构造 许多 
不 同 种 类 的 软件 ， 例 如 包括 编译 器 的 词法 分 析 部 件 以 及 电路 与 协议 正确 性 的 验证 系统 。 

* 正 则 表达 式 ; 这 是 描述 有 穷 自动 机 所 表示 的 相同 模式 的 结构 记号 。 用 在 许多 常见 类 型 的 软 
件 中 ， 例 如 包括 查找 文本 模式 或 文件 名 模式 的 工具 。 

， 上 下 文 无 关 文法 : 这 是 描述 程序 设计 语言 的 结构 以 及 相关 的 串 集合 的 重要 记号 ， 用 来 构造 
编译 器 的 语法 分 析 部 件 。 

"图 灵机 : 这 是 为 真实 计算 机 的 能 力 建立 模型 的 自动 机 。 图 灵机 人 允许 研究 可 判定 性 ， 即 计算 
机 能 做 什么 或 不 能 做 什么 的 问题 。 也 允许 区 分 易 解 问题 ( 即 能 在 多 项 式 时 间 内 解决 的 问题 ) 
与 难 解 问题 ( 即 不 能 在 多 项 式 时 间 内 解决 的 问题 ) 。 

“演绎 证 明 : 这 种 基本 的 证 明 方法 ， 通 过 列 出 那些 已 知 为 真 的 命题 或 从 前 面 一 些 命题 逻辑 地 
得 出 的 命题 ， 来 进行 下 去 。 

“证 明 “ 如 果 一 则 ”命题 许多 命题 都 是 形 如 “如 果 (什么 ) 则 (其 他 什么 )”。“ 如 果 ” 后 
面 的 一 个 或 多 个 命题 是 前 提 ,“ 则 ”后 面 的 命题 是 结论 。“ 如 果 - 则 ”命题 的 演绎 证 明 从 前 
提 开始 ， 持 续 从 前 提 和 前 面 命题 逻辑 地 推出 命题 ， 直 到 证 明 出 结论 是 其 中 一 个 命题 为 止 。 

“证 明 “ 当 且 仅 当 ” 命 题 还 有 另外 一 些 定理 形 如 “(什么 ) 当 且 仅 当 (其 他 什么 )"。 通 过 
双向 地 证 明 “如 果 一 则 ”命题 来 证 明 这 些 命题 。 类 似 的 种 类 定理 断言 以 两 种 不 同方 式 描述 
集合 的 相等 性 ， 通 过 证 明 这 两 个 集合 互相 包含 来 证 明 这 些 集合 的 相等 性 。 

“证 明 北 否 盒 题 : 有 了 时候 ， 证 明 等 价 命题 “如 果 非 C， 则 非 H” 比 证 明 “ 如 果 万 ， 则 C” 要 更 
容易 。 前 者 称 为 后 者 的 逆 否 命题 。 

。 反 证 法 : 其 他 时 候 ， 证 明 命题 “如 果 H 且 非 C， 则 (已 知 为 假 的 什么 )” 比 证 明 命题 “如 果 
互 ， 则 C” 要 更 方便 。 这 种 类 型 的 证 明 称 为 反 证 法 。 

“反例 : 有 时 候 要 求证 明 某 个 命题 不 为 真 。 如 果 这 个 命题 有 一 个 或 多 个 参数 ， 则 只 给 出 一 个 
反例 (就 是 说 ， 使 命题 为 假 的 参数 赋值 ) 就 证 明 作 为 一 般 性 命题 的 这 个 命题 为 假 。 

“归纳 证 明 : 常常 可 用 整数 "上 的 归纳 法 来 证 明 带 参数 "的 命题 。 对 基础 "的 具体 值 的 有 穷 多 
种 情形 ) 证 明 命题 为 真 ， 然 后 证 明 归纳 步骤 : 如 果 命 题 对 直到 n 的 值 为 真 ， 则 命题 对 n + 1 
为 真 。 

“结构 归纳 法 : 在 某 些 情况 下 ， 包 括 本 书 的 许多 情况 下 ， 要 归纳 证 明 的 定理 是 关于 某 个 递归 
定义 的 结构 ， 比 如 树 。 通 过 在 构造 所 使 用 的 步 数 上 归纳 ， 来 证 明 关于 所 构造 对 象 的 定理 。 
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把 这 种 类 型 的 归纳 法 称 为 结构 归纳 法 。 

"FHA: 字母 表 是 任何 有 穷 的 符号 集合 。 

°F: 申 是 有 穷 长 度 的 符号 序列 。 

"语言 和 问题 : 语言 是 一 些 捉 的 集合 (可 能 无 穷 )， 所 有 这 些 串 都 从 某 一 个 字母 表 选 择 符号 。 
当 打算 以 某 种 方式 来 解释 语言 的 串 时 ， 就 把 一 个 串 是 否 属于 这 个 语言 的 提问 称 为 问题 。 
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第 2 章 有 穷 自动 机 


本 章 介绍 一 类 语言 ， 称 为 “正则 语言 "。 这 些 语言 恰好 是 有 穷 自 动机 描述 的 语言 1.1.14 
简单 举 过 有 穷 自 动机 的 例子 。 在 用 一 个 扩充 例子 说 明了 研究 动机 之 后 ， 形 式 化 地 定义 有 穷 自 
动机 。 

前 面 说 过 ， 有 穷 自动 机 有 一 组 状态 及 其 控制 ， 响 应 外 部 “输入 ", “控制 ”从 状态 移动 到 状 
态 。 各 类 有 穷 自动 机 之 间 的 关键 区 别 之 一 ， 在 于 控制 究竟 是 “确定 的 ”还 是 “ 非 确定 的 "， 前 者 
意味 着 在 任何 时 刻 自动 机 不 能 处 在 一 种 以 上 状态 中 ， 后 者 意味 着 自动 机 能 同时 处 在 几 种 状态 中 
我 们 将 会 发 现 ， 增 加 非 确定 性 并 不 能 定义 出 任何 不 能 用 确定 型 有 穷 自动 机 来 定义 的 语言 ， 但 是 
用 非 确定 型 有 穷 自动 机 来 描述 应 用 却 具 有 很 高 的 效率 。 事 实 上 ， 非 确定 性 允许 用 较 高 层 语言 来 
“设计 ”问题 的 解 。 然 后 用 本 章 学 习 的 算法 ， 把 非 确定 型 有 穷 自动 机 “编译 ”成 确定 型 有 穷 自动 
机 ， 在 常规 计算 机 上 “执行 "。 

本 章 最 后 研究 扩展 的 非 确定 型 有 穷 自动 机 ， 这 种 自动 机 具有 额外 选择 ， 能 自动 从 一 种 状态 
转移 到 另 一 种 状态 ， 即 在 作为 “输入 ”的 空 串 上 转移 。 这 些 自动 机 也 只 接受 正则 语言 。 在 第 3 章 
研究 正则 表达 式 及 其 与 自动 机 的 等 价 性 时 ， 将 会 发 现 这 些 自动 机 非常 重要 。 

第 3 章 继续 研究 正则 语言 ， 这 一 章 将 描述 正则 语言 的 另 一 种 重要 方式 :代数 记号 ， 称 为 正 
则 表达 式 。 在 讨论 了 正则 表达 式 并 证 明了 与 有 穷 自动 机 的 等 价 性 之 后 ， 第 4 章 用 自动 机 和 正则 
表达 式 作为 工具 ,证明 正则 语言 的 某 些 重要 性 质 。 这 些 性 质 的 例子 是 “封闭 ”性 和 “判定 ”性 ， 
前 者 允许 根据 已 知 一 个 或 多 个 其 他 语言 是 正则 的 ， 来 断言 某 个 语言 是 正则 的 ;后 者 是 算法 ， 回 
答 关于 自动 机 或 正则 表达 式 的 问题 ， 例 如 两 个 自动 机 或 正则 表达 式 是 否 表示 相同 的 语言 。 


2.1 有 穷 自动 机 的 非 形 式 化 描述 


本 节 研 究 现实 世界 问题 的 扩充 例子 ， 有 穷 自动 机 在 解决 这 些 问题 时 起 重要 作用 。 这 个 例子 
研究 支持 “电子 货币 ”的 协议 ,“ 电 子 货币 ”是 顾客 在 互联 网 上 购物 付款 的 文件 ;商家 能 收 到 文 
件 并 确信 “ 钱 ” 是 真 的。 商家 必须 知道 ， 这 个 文件 不 是 伪造 的 ， 也 不 是 顾客 复制 后 发 送 给 商家 
却 保留 副本 准备 再 次 付款 的 。 

文件 的 不 可 伪造 性 是 银行 用 密码 政策 必须 保证 的 性 质 。 也 就 是 说 ,第 三 方 (银行) 必须 发 
行 并 加 密 “ 货 币 ”文件 ， 使 得 不 可 能 被 伪造 。 银 行 还 有 第 二 项 重要 任务 ， 银 行 必 须 维护 一 个 所 
有 已 发 行 有 效 货币 的 数据 库 ， 使 得 银行 可 以 验证 商店 收 到 的 文件 代表 真 钱 并 转 入 商店 账户 。 本 
书 不 讨论 这 个 问题 的 密码 学 方面 ， 也 不 关心 银行 如 何 存 取 数 以 亿 计 的 “电子 美 钞 "。 这 些 问 题 似 
平 不 代表 电子 货币 概念 的 长 远 障碍 ， 自 20 世 纪 90 年 代 以 来 ， 已 经 有 小 规模 使 用 电子 货币 的 例 
FT: 

为 了 使 用 电子 货币 ,需要 设计 协议 ， 人 允许 按照 用 户 希 望 的 各 种 方式 去 操纵 货币 。 由 于 货币 
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系统 总 是 诱发 伪造 ， 所 以 无 论 采 用 什么 政策 ， 都 必须 验证 如 何 使 用 货币 。 也 就 是 说 ， 需 要 证 明 
能 够 发 生 的 事情 仅仅 是 希望 发 生 的 事情 ， 即 防止 不 守 规 矩 的 用 户 从 别人 那里 偷 钱 或 “制造 ” 钱 
这 类 事情 。 在 本 节 剩 下 的 篇 幅 中 ， 介 绍 一 个 非常 简单 的 (不良 的 ) 电子 货币 协议 的 例子 ， 用 有 
穷 自 动机 为 协议 建立 模型 ， 并 说 明 如 何 用 自动 机 寺 的 构造 来 验证 协议 或者， 在 这 个 例子 的 情 
况 下 发 现 协议 有 漏洞 )。 


2.1.1 基本 规则 


有 三 方 参与 : 顾客 、 商 店 和 银行 。 为 简单 起 见 ， 假 设 只 存在 一 个 “货币 ”文件 。 顾 客 可 以 
决定 把 货币 文件 传送 给 商店 ， 商 店 然后 从 银行 兑换 货币 文件 ( 即 让 银行 发 行 属于 商店 而 不 属于 
顾客 的 新 文件 ) 并 送 货 给 顾客 。 而 且 ， 顾 客 可 以 选择 取消 文件 。 也 就 是 说 ， 顾 客 可 以 要 求 银行 
把 钱 放 回 顾客 的 账户 ， 不 再 用 这 钱 付款 。 因 此 三 方 之 间 的 交互 限于 5 种 事件 ; 

1. 顾客 决定 付款 。 也 就 是 说 ， 顾 客 把 钱 发 送 给 商店 。 

2. 顾客 决定 取消 。 把 钱 发 送 给 银行 ， 附 带 把 这 笔 钱 添加 到 顾客 的 银行 账户 的 消息 。 

3. 商店 送 货 给 顾客 。 

4. 商 店 兑换 货币 。 也 就 是 说 ， 把 钱 发 送 给 银行 ， 并 附带 一 个 把 这 笔 钱 给 商店 的 请 求 。 

5. 银 行将 这 笔 钱 转账 ， 方 法 是 建立 新 的 适当 加 密 的 货币 文件 并 发 送 给 商店 。 


2.1.2 协议 


三 方 必须 小 心 设计 各 自 的 行为 ， 否 则 就 会 发 生 错误 。 在 例子 中 ， 做 一 个 合理 假设 :不 能 依 
靠 顾 客 采取 负责 任 的 行动 。 特 别 是 ， 顾 客 可 能 试图 复制 货币 文件 用 来 多 次 付款 ,或 者 付款 再 取 
消 ， 因 此 “免费 ”得 到 货物 。 

银行 必须 采取 负责 任 的 行动 ， 否 则 就 不 成 为 银行 。 特 别 是 ， 银 行 必须 保证 两 家 商店 不 会 况 
换 同 一 个 货币 文件 ， 必 须 不 允许 既 取消 又 兑换 货币 。 商 店 也 应 当 小 心 。 特 别 是 ， 商 店 应 当 直 到 
确信 已 得 到 有 效 货款 之 后 才 送 货 。 

这 种 类 型 的 协议 可 表示 成 有 穷 自 动机 。 每 个 状态 表示 某 一 方 所 处 的 局 面 。 也 就 是 说 ， 状 态 
“ 记 住 ” 某 些 重要 事件 已 经 发 生 而 其 他 事件 还 没有 发 生 。 状 态 之 间 的 转移 发 生 在 前 面 所 描述 的 5 
种 事件 之 一 发 生 时 。 认 为 这 些 事件 在 表示 三 方 的 自动 机 的 “外 部 "， 尽 管 每 一 方 都 负责 激发 一 个 
或 多 个 事件 。 关 于 这 个 问题 ， 重 要 的 是 能 发 生 什么 样 的 事件 序列 ， 而 不 是 允许 谁 来 激发 事件 。 

图 2-1 用 自动 机 表示 三 方 。 在 图 中 只 显示 影响 某 一 方 的 事件 。 例 如 ， 付 款 行动 只 影响 顾客 和 
商店 。 银 行 不 知道 顾客 把 钱 送 给 商店 ， 只 有 当 商 店 执行 部 挨 行 动 时 ,银行 才 知道 这 样 的 事实 。 

首先 检查 表示 银行 的 自动 机 (图 2-1c)。 初 始 状态 是 状态 !， 表 示 这 样 的 局 面 ， 银行 已 经 发 
行 了 所 讨论 的 货币 文件 ， 但 还 没有 收 到 兑换 或 取消 的 请 求 。 如 果 顾 客 把 取消 请 求 送 到 银行 ， 银 
行 就 把 钱 存 到 顾客 的 账户 并 进入 状态 2。 状 态 2 表示 已 经 取消 了 这 笔 钱 的 局 面 。 负 责任 的 银行 一 
且 进 入 状态 2 就 不 再 离开 ， 因 为 银行 必须 防止 顾客 再 次 取消 或 花费 这 笔 钱 。。 


O 读者 应 当 记 住 ， 整 个 讨论 都 是 关于 一 个 货币 文件 的 。 事 实 上 ， 银 行 运行 相同 的 协议 来 处 理 大 量 的 电子 货币 ,但 
对 于 每 个 电子 货币 来 说 ， 协 议 的 工作 都 是 相同 的 ， 所 以 可 以 这 样 来 讨论 这 个 问题 ， 似 乎 只 存在 一 个 电子 货币 。 


Download at http://www.pin5i.com/ 


BF ADH 27 





Start 付款 兑换 转账 
O—-0)—-O—-© 
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兑换 转账 
a) Bi 
vain @) 
GS) 取消 
O O—-@)—-@) 
兑换 转账 
Start Start 
b) 顾 客 DRT 


图 2-1 表示 顾客 、 商 店 和 银行 的 有 穷 自动 机 


另 一 种 情况 是 ， 银 行 在 状态 1 时 可 接受 商店 的 兑换 请 求 。 如 果 这 样 ， 银 行 就 进入 状态 3， 立 
刻 向 商店 发 送 转账 消息 ， 附 带 现 在 属于 商店 的 新 的 货币 文件 。 银 行 在 发 送 转账 消息 后 进入 状态 4。 
在 状态 4 中 ， 银 行 既 不 接受 取消 或 部 摘 请求 ， 也 不 再 对 这 个 特定 的 货币 文件 执行 任何 操作 。 

现在 考虑 图 2-1a， 表 示 商 店 行为 的 自动 机 。 银 行 总 是 做 正确 的 事情 ， 但 商店 系统 存在 一 些 
缺陷 。 想 像 一 下 ， 由 不 同 的 进程 来 完成 送 货 和 财务 操作 ， 所 以 有 这 样 的 可 能 ， 送 货 行动 是 早 于 、 
晚 于 或 者 正当 兑换 电子 货币 时 。 这 个 策略 允许 商店 处 在 这 样 的 局 面 ， 商 店 已 经 送 了 货 ， 然 后 发 
现货 币 是 假 的 。 

商店 从 状态 a 开始 。 当 顾客 采取 付款 行动 来 预定 货物 时 ， 商 店 进入 状态 b。 在 这 个 状态 中 ， 
商店 同时 开始 送 货 和 兑换 进程 。 如 果 货物 首先 送 到 ， 商 店 就 进入 状态 c， 在 这 个 状态 下 ， 商 店 仍 
然 要 从 银行 兑换 货币 并 收 到 银行 转账 的 等 价 货币 文件 。 另 一 种 情况 是 ， 商 店 首先 发 送 兑换 信息 ， 
进入 状态 4。 从 状态 4， 商 店 可 能 接着 送 货 ， 进 入 状态 e， 也 可 能 接着 收 到 银行 转账 的 货币 ， 进 入 
状态 f。 从 状态 f， 预 期 商店 最 终 会 送 货 ， 让 商店 进入 状态 8s， 在 这 个 状态 下 ， 交 易 完成 而 不 会 发 
生 其 他 事情 。 在 状态 e， 商 店 等 待 银行 转账 。 不 幸 的 是 ， 货 物 已 经 送出 ， 如 果 转 账 永远 不 发 生 ， 
商店 就 倒霉 了 。 

最 后 查看 图 2-1lb， 表 示 顾 客 的 自动 机 。 这 个 自动 机 只 有 一 个 状态 ， 反 映 顾客 “可 做 任何 事 
情 ”的 事实 。 顾 客 可 用 任何 次 序 任意 多 次 采取 付款 和 取消 动作 ， 在 每 次 动作 后 停留 在 那个 单独 
的 状态 中 。 


2.1.3 允许 自动 机 忽略 动作 


图 2-1 的 自动 机 独立 地 反映 出 三 方 的 行为 ， 却 丢失 了 某 些 转移 。 例 如 ， 商 店 不 受 取 消 消息 的 
影响 ， 所 以 如 果 顾 客 执行 取消 动作 ， 商 店 还 停留 在 任何 所 处 状态 中 。 但 在 22 节 将 要 学 习 的 有 穷 
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自动 机 的 形式 化 定义 中 ， 每 当 自动 机 收 到 输入 X 时 ， 自 动机 都 必须 顺 着 从 所 处 状态 出 发 带 X 标 记 
的 箭 弧 〈 带 箭头 的 弧 ， 表 示 有 向 边 ) 来 进入 某 个 新 状态 。 因 此 ， 表 示 商 店 的 自动 机 需要 添加 从 
每 个 状态 到 自身 的 带 取 消 标记 的 第 碑 。 于 是 每 当 执 行 取消 动作 时 ， 商 店 自动 机 就 在 这 个 输入 上 
“转移 "， 具 有 还 是 停留 在 过 去 状态 下 的 效果 。 如 果 没 有 这 些 附加 的 箭 弧 ， 每 当 执行 取消 动作 时 ， 
商店 自动 机 就 “死亡 ”了 ， 也 就 是 说 ， 自 动机 根本 没有 处 在 任何 状态 中 ， 不 可 能 进行 后 续 动作 。 

另 一 个 潜在 问题 是 ， 某 一 方 可 能 故意 或 错误 发 送 一 个 意料 之 外 的 消息 ， 而 我 们 并 不 希望 这 
个 动作 导致 其 中 一 个 自动 机 死亡 。 例 如 ， 假 设 当 商 店 处 在 状态 ce 时 ， 顾 客 决定 第 二 次 采取 付款 动 
作 。 由 于 那个 状态 没有 发 出 带 付款 标记 的 箭 弧 ， 所 以 商店 自动 机 在 收 到 银行 的 转账 之 前 就 死亡 
了 。 总 之 ， 必 须 给 图 2-1 的 自动 机 的 某 些 状 态 加 上 环 ， 以 标记 在 那些 状态 中 必须 忽略 的 所 有 动作 ， 
完整 的 自动 机 如 图 2-2 所 示 。 为 了 省 地 方 ， 把 标记 合并 到 一 个 箭 弧 上 ， 而 不 是 显示 几 个 首尾 相同 
而 标记 不 同 的 箭 弧 。 

取消 付款、 取消 付款、 取消” 付款 、 取 消 





付款 、 取消 ”付款 、 取 消 ”付款 、 取消 
a) fini 
付款 、 送 货 







付款 、 兑 换 、。 付款 、 竞 换 、 
取消 、 送 货 “取消 、 送 货 


b 顾客 日 银行 
图 2-2 三 个 自动 机 的 全 套 转移 


两 类 必须 忽略 的 动作 是 : 

L 与 各 方 无 关 的 动作 。 我们 已 经 看 到 ， 与 商店 无 关 的 惟一 行为 是 取消 ， 所 以 商店 的 7 个 状态 
中 每 个 都 有 带 取消 标记 的 环 。 对 于 银行 ， 付 款 和 送 贫 都 是 无 关 的 ， 所 以 在 银行 的 每 个 状 
态 上 都 加 上 带 付款 和 送 贫 标 记 的 箭 弧 。 对 于 顾客 ， 送 筑 、 兑 换 和 转账 都 是 无 关 的 ， 所 以 
加 上 带 这 些 标记 的 箭 弧 。 实 际 上 ， 顾 客 自动 机 在 任何 输入 序列 上 都 停留 在 一 个 状态 中 
所 以 对 整个 系统 的 运行 没有 影响 。 当 然 ， 顾 客 仍然 是 一 方 ， 因 为 是 顾客 引起 付款 和 取消 
动作 。 但 是 ， 已 经 说 过 ， 谁 引起 动作 这 件 事 与 自 动机 的 行为 无 关 。 

2. 导致 自动 机 死亡 的 必 防 动作 。 已 经 说 过 ， 必 须 防 止 顾客 再 次 执行 付款 以 导致 商店 自动 机 
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死亡 ， 所 以 给 商店 自动 机 除 状态 a 之 外 的 所 有 状态 都 加 上 带 付款 标记 的 环 (在 状态 a 中 ， 
付款 行为 是 预期 的 和 有 关 的 )。 也 给 银行 的 状态 3 和 4 加 上 带 取消 标记 的 环 ， 以 防止 顾客 尝 
试 取消 已 经 兑换 的 钱 而 导致 银行 自动 机 死亡 。 银 行 正确 地 忽略 这 样 的 请 求 。 同 样 ， 状 态 3 
和 4 有 兑换 环 。 商 店 不 应 该 尝试 把 同一 笔 钱 兑换 两 次 ， 但 如 果 商 店 尝试 了 ， 银 行 就 正确 地 
忽略 第 二 次 请 求 。 


2.1.4 整个 系统 成 为 一 个 自动 机 


现在 有 了 三 方 如 何 行动 的 模型 ， 但 还 没有 表示 出 三 方 的 交互 。 前 面 说 过 ， 由 于 对 顾客 的 行 
为 没有 约束 ， 所 以 顾客 自动 机 只 有 一 个 状态 ， 任 何事 件 序列 都 使 其 停留 在 那个 状态 中 ， 即 不 会 
因为 顾客 自动 机 对 某 个 行为 没有 响应 ， 而 使 系统 作为 整体 “死亡 "。 但 商店 和 银行 都 以 复杂 的 方 
式 来 行动 ， 这 两 个 自动 机 能 处 在 什么 样 的 组 合 状态 里 并 不 是 显而易见 的 。 

研究 诸如 此 类 的 自动 机 的 交互 ， 标 准 方法 是 构造 来 积 自动 机 。 乘 积 自动 机 的 状态 表示 一 对 状 
态 : 一 个 是 商店 的 ， 一 个 是 银行 的 。 例 如 ， 乘 积 自动 机 的 状态 (3, 四 表示 这 样 的 局 面 ; 银行 处 在 状 
态 3， 商 店 处 在 状态 4。 由 于 银行 有 4 个 状态 ， 商 店 有 7 个 状态 ， 所 以 乘积 自动 机 有 4x7= 28 个 状态 。 

乘积 自动 机 如 图 2-3 所 示 。 为 了 清楚 起 见 ， 把 28 个 状态 排 成 阵列 。 各 行 对 应 着 银行 的 状态 ， 
各 列 对 应 着 商店 的 状态 。 为 了 节省 地 方 ， 还 对 箭 弧 上 的 标记 做 了 缩写 ， 用 P、3S、C、R 和 7 分 别 
表示 付款 、 送 货 、 取 消 、 兑 换 和 转账 。 





D 
c PC PC PC PC UPC PE 
图 2-3 商店 和 银行 的 乘积 自动 机 


为 了 构造 乘积 自动 机 的 箭 弧 ， 需 要 “并 行 ”运行 银行 自动 机 和 商店 自动 机 。 乘 积 自动 机 的 
两 部 分 各 自 独立 在 各 种 输入 上 转移 。 但 重要 的 是 注意 ， 如 果 两 个 自动 机 之 一 在 收 到 的 某 个 输入 
动作 上 无 状态 可 入 ， 则 乘积 自动 机 因为 无 状态 可 入 而 “死亡 ”。 

为 了 准确 说 明 这 条 状态 转移 规则 ， 假 设 乘积 自动 机 处 在 状态 (i, 区 中 。 这 个 状态 对 应 这 样 的 
局 面 : 银行 处 在 状态 i， 商 店 处 在 状态 x。 设 Z 是 输入 动作 之 一 。 观 察 表 示 银 行 的 自动 机 ， 看 是 否 
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有 从 状态 i 出 发 的 带 Z 标 记 的 转移 。 假 设 有 ， 并 且 导 向 状态 j (如 果 银 行 在 输入 Z 上 循环 ，j 就 可 能 
与 相同 )。 然 后 ， 观 察 商店 ， 看 是 否 有 带 Z 标 记 的 稍 绝 导 向 某 个 状态 ?>。 如 果 j 和 y 都 存在 ， 乘 积 
自动 机 就 有 从 状态 (i, 如 到 (j, 习 带 2 标记 的 箭 弧 。 如 果 状 态 7 或 ?不 存在 〈 由 于 对 输入 Z， 银 行 或 商 
店 没有 从 碱 zx 出 发 的 箭 弧 ) ， 就 没有 从 (, 习 出 发 的 带 Z 标 记 的 箭 弧 。 

现在 来 看 如 何 选取 图 2-3 的 箭 颖 。 例 如 ， 在 付款 输入 上 ， 商 店 从 状态 a 转移 到 b， 但 在 除 a 外 
其 他 任何 状态 下 都 停留 不 动 。 当 输入 是 付款 时 ， 银 行 停留 在 任何 所 处 状态 中 ， 因 为 这 个 动作 与 
银行 无 关 。 这 个 事实 解释 了 图 2-3 中 4 行 左 端 带 P 标 记 的 4 个 箭 弧 。 

另 一 个 如 何 选取 箭 弧 的 例子 是 ， 考 虑 兑换 输入 。 如 果 银行 收 到 兑换 消息 ， 当 银行 在 状态 1 时 ， 
就 进入 状态 3。 如 果 在 状态 3 或 4 中 ， 就 停留 在 那里 ， 而 在 状态 2 中 银行 自动 机 就 死亡 了 ， 即 无 处 
可 去 。 另 一 方面 ， 当 商店 收 到 兑换 输入 时 ， 能 从 状态 b 到 d， 或 从 状态 c 到 e。 在 图 2-3 里 ， 看 到 6 个 
箭 弧 带 兑换 标记 ， 对 应 着 3 个 银行 状态 和 两 个 商店 状态 的 6 种 组 合 ， 这些 状态 都 发 出 带 R 标 记 的 箭 
I. fán, EREU, b) 中 ， 带 R 标 记 的 箭 弧 把 自动 机 导向 状态 (3, d)， 因 为 竞 找 让 银行 从 状态 1 到 
3, 让 商店 从 状态 b 到 d。 另 一 个 例子 是 ， 从 (4, c) 到 (4, e 有 带 R 标 记 的 箭 弧 ， 因 为 兑换 让 银行 从 状 
态 4 回 到 状态 4， 让 商店 从 状态 c 到 状态 e。 


2.1.5 用 乘积 自动 机 验证 协议 


图 2-3 说 明了 一 些 有 趣 的 事情 。 例 如 ， 在 28 个 状态 中 ， 只 有 10 个 状态 是 从 初始 状态 可 达 的 ， 
初始 状态 是 (1, a)， 即 银行 和 商店 自动 机 的 初始 状态 的 组 合 。 注 意 ， 像 (2, e) 和 (4, 四 这 样 的 状态 ， 
都 是 不 可 达 的 ， 也 就 是 说 ， 没 有 从 初始 状态 到 达 这 些 状态 的 路 径 。 自 动机 里 没有 必要 包含 不 可 
达 状 态 ， 在 这 个 例子 里 却 包 含 了 不 可 达 状 态 ， 这 只 是 为 了 系统 化 。 

但 用 自动 机 分 析 协 议 ( 比 如 上 面 这 个 ) 的 真正 目的 ， 是 提出 和 回答 下 面 这 种 意义 的 问题 ; 
“会 发 生 以 下 类 型 的 错误 吗 ? ”在 目前 的 例子 里 ， 可 能 会 问 是 否 有 这 样 的 可 能 ， 商 店 送 了 货 ， 却 
永远 收 不 到 付款 。 就 是 说 ,乘积 自动 机 是 否 会 进入 这 样 的 状态 , 商店 已 经 送 了 货 ( 即 状态 是 在 c、 
< 或 8 列 中 )， 但 在 过 去 和 将 来 都 没有 在 输入 7 上 的 转移 ? 

例如 ， 在 状态 (3, e) 中 ， 货 已 经 送 了 ， 而 最 终 会 有 在 输入 7 上 到 状态 (4, 8) 的 转移 。 就 银行 正 
在 做 什么 而 言 ， 一 旦 银行 进入 了 状态 3， 就 收 到 了 交换 请 求 并 处 理 。 这 意味 着 ,银行 在 收 到 光 换 
之 前 一 定 处 在 状态 1 中 ， 因 此 还 没有 收 到 取消 消息 ,但 如 果 将 来 收 到 了 ， 就 忽略 这 个 消息 。 因 此 
银行 最 终 会 把 钱 转 到 商店 。 

但 是 ， 状 态 (2, 有 问题 > 这 个 状态 是 可 达 的 ， 但 发 出 的 惟一 箭 弧 又 回 到 这 个 状态 。 这 个 状 
态 对 应 着 这 样 的 局 面 : 银行 在 收 到 兑换 消息 之 前 收 到 取消 消息 ， 但 商店 却 收 到 付款 消息 ， 即 顾 
客 正 在 行 骗 ， 把 同一 笔 钱 先 付款 再 取消 。 商 店 在 尝试 兑换 货币 之 前 就 思春 地 送 了 货 ， 当 商店 真 
的 执行 兑换 动作 时 ， 银 行 甚至 不 理 上 这 个 消息 ， 因 为 银行 处 在 状态 2， 在 这 个 状态 ， 银 行 已 经 取 
消 了 这 钱 ， 不 再 处 理 兑换 请 求 。 


2.2 确定 型 有 穷 自 动机 


现在 可 以 给 出 有 穷 自动 机 的 形式 化 定义 ， 这 样 就 能 着 手 把 1.1.1 节 和 2.1 节 里 看 到 的 一 些 非 形 
式 化 证 明和 描述 变 得 精确 化 。 首 先 介绍 对 确定 型 有 穷 自 动机 的 形式 化 ， 这 种 自动 机 在 读 任何 输 
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入 序列 后 只 能 处 在 一 个 状态 中 。 术 语 “ 确 定型 ”是 指 这 样 的 事实 ; 在 每 个 输入 上 存在 且 仅 存在 
一 个 状态 ， 自 动机 可 从 当前 状态 转移 到 这 个 状态 。 相 反 ，2.3 节 的 主题 “ 非 确定 型 ”有 穷 自 动机 
可 同时 处 在 几 个 状态 中 。 术 语 “ 有 穷 自动 机 ”是 指 确定 型 这 一 类 型 ， 但 常用 “确定 型 ”或 缩写 
DFA， 以 提醒 读者 正在 讨论 哪 种 类 型 的 自动 机 。 


2.2.1 确定 型 有 穷 自 动机 的 定义 


一 个 确定 型 有 穷 自动 机 包括 : 
1. 一 个 有 穷 的 状态 集合 ， 通 常 记 作 Q。 
2. 一 个 有 穷 的 输入 符号 集合 ， 通 常 记 作 2. 
3. 一 个 转移 函数 ， 以 一 个 状态 和 一 个 输入 符号 作为 变量 ， 返 回 一 个 状态 。 转 移 函 数 通常 记 作 
5。 在 非 形 式 化 表示 自动 机 的 图 中 ， 用 状态 之 间 的 箭 弧 和 箭 弧 上 的 标记 来 表示 56。 如 果 4 是 
一 个 状态 ，< 是 一 个 输入 符号 ， 则 5g,q) 是 这 样 的 状态 p， 使 得 从 p 到 4 有 带 ca 标记 的 箭 弧 9 。 
4. 一 个 初始 状态 ， 是 C 中 状态 之 一 。 
5. 一 个 终结 状态 或 接受 状态 的 集合 F。 集 合 F 是 CQ 的 子 集合 。 
通常 用 缩写 DFA 来 指示 确定 型 有 穷 自动 机 。 最 紧凑 的 DFA 表 示 是 列 出 上 面 5 个 部 分 。 在 证 明 
中 ,通常 用 “五 元 组 ”记号 来 讨论 DFA: 
A=(Q, E, ð, qo, F) 
其 中 4 是 DFA 的 名 称 ，C 是 状态 集合 ， 了 是 输入 符号 ，5 是 转移 函数 ，qo 是 初始 状态 ，F 是 接受 状 
态 的 集合 。 


2.2.2 DFA 如 何 处 理 串 


关于 DEFA 需 要 理解 的 第 一 件 事情 是 ，DFA 如 何 决定 是 否 “接受 ”输入 符号 序列 。DFA 的 
“语言 ”是 这 个 DFA 接 受 的 所 有 的 串 的 集合 。 假 设 cio>…a 是 输入 符号 序列 。 让 这 个 DFA 从 初始 
状态 g 开始 运行 。 查 询 转移 函数 65， 比如 说 5%go, a) = 9,， 以 找 出 DEA 4 在 处 理 了 第 一 个 输入 符号 
a 之 后 进入 的 状态 。 处 理 下 一 个 输入 符号 wx， 求 %q,, a2) 的 值 ， 假 设 这 个 状态 是 9,。 以 这 种 方式 
继续 下 去 ， 找 出 状态 q3, qo …, qn， 使 得 对 每 个 :，6(qi-1, ai) = qio MRa MFE, WA 
qa2…an， 否 则 就 “拒绝 ”。 


例 2.1 形式 化 地 规定 一 个 DEA， 接 受 所 有 仅 在 串 中 某 个 地 方 有 01 序 列 的 0 和 1 组 成 的 串 。 可 
以 把 这 个 语言 L 写 成 : 
{w1w 形 如 x01y，x 和 ly 是 只 包含 Oo 和 1 的 两 个 串 } 
另 一 种 在 竖 线 左边 使 用 参数 x 和 y 的 等 价 描述 是 : 
{x0171x 和 ?是 0 和 1 的 任意 串 } 
这 个 语言 中 的 串 的 例子 包括 01、11010 和 100011。 不 属于 这 个 语言 的 串 的 例子 包括 e、0 和 
111000。 


O 更 准确 地 说 ， 这 个 图 是 某 个 转移 函数 5 的 图 ， 这 个 图 的 箭 弧 为 反映 出 5 所 规定 的 转移 而 构造 。 
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对 于 接受 这 个 语言 [的 自动 机 ， 我 们 知道 些 什么 ? 首先 ， 输 入 字母 表 是 了 = {0, 1}。 有 某 个 
状态 集合 QO， 其 中 一 个 状态 (如 qo) 是 初始 状态 。 这 个 自动 机 需要 记 住 这 样 的 重要 事实 : 至 此 看 
到 了 什么 样 的 和 输入。 为 了 判定 01 是 不 是 这 个 输入 的 一 个 子囊，4 需 要 记 住 : 

1. 是 否 已 经 看 到 了 01? 如 果 是 ， 就 接受 后 续 输 入 的 每 个 序列 ， 即 从 现在 起 只 处 在 接受 状 

Ap. 
2. 是 否 还 没有 看 到 01， 但 上 一 个 输入 是 0， 所 以 如 果 现 在 看 到 1， 就 看 到 了 01， 并 且 接受 从 
此 开始 看 到 的 所 有 东西 ? 

3. 是 否 还 没有 看 到 01， 但 上 一 个 输入 要 么 不 存在 〈 刚 开始 运行 )， 要 么 上 次 看 到 1? 在 这 种 

情况 下 ，4 直 到 先 看 到 0 然后 立即 看 到 1 才 接受 。 

这 三 个 条 件 每 个 都 能 用 一 个 状态 来 表示 。 条 件 (3) 用 初始 状态 qo 来 表示 。 的 确 ， 在 刚 开始 时 ， 
需要 看 到 一 个 0 然后 看 到 一 个 1。 但 是 如 果 在 状态 qo 下 接着 看 到 一 个 1， 就 并 没有 更 接近 于 看 到 01， 
所 以 必须 停留 在 状态 qo 中 。 即 ，6(qo, 1)=qo。 

但 是 ， 如 果 在 状态 go 下 接着 看 到 0， 就 处 在 条 件 (2) 中 。 也 就 是 说 ， 还 没有 看 到 过 01， 但 看 到 
了 0。 因 此 ， 用 94: 来 表示 条 件 (2)。 在 输入 0 上 从 4 出 发 的 转移 是 6qo,0) = qo. 

现在 ， 来 考虑 从 状态 9: 出 发 的 转移 。 如 果 看 到 0， 就 并 没有 取得 任何 进展 ， 但 也 没有 任何 退 
步 。 还 没有 看 到 01， 但 0 是 上 一 个 符号 ， 所 以 还 在 等 待 1。 状 态 4 完美 地 描述 了 这 种 局 面 ， 所 以 
希望 (qz, 0) = 4。 如 果 在 状态 9: 看 到 1 输入 ， 现 在 就 知道 有 一 个 0 后 面 跟着 1。 就 可 以 进入 接受 状 
态 ， 把 接受 状态 称 为 q,，q1 对 应 上 面 的 条 件 (1)。 就 是 说 ，6(q;, 1) = gq。 

最 后 ， 必 须 设计 状态 9, 的 转移 。 在 这 个 状态 下 ， 已 经 看 到 了 01 序 列 ， 所 以 无 论 发 生 什么 事 
情 ， 都 还 是 处 在 这 样 的 局 面 下 : 已 经 看 到 了 01。 也 就 是 说 ，6(q1,0)==6(q, 1) = qi。 

因此 ，Q = {qo 41, q2}。 已 经 说 过 ，gqo 是 初始 状态 ， 惟 一 的 接受 状态 是 gq/， 也 就 是 说 ，F = 
{q!}。 接 受 语言 L 〈 有 01 子 串 的 串 的 语言 ) 的 自动 机 4 的 完整 描述 是 

A=({qo, 91, 92}, {0, 1}, 5, qo, {q1}) 
其 中 6 是 上 面 描述 的 转移 函数 。 口 


2.2.3 DFA 的 简化 记号 


把 DFA 规 定 成 五 元 组 ， 附 带 对 6 转移 函数 的 详细 描述 ， 这 既 乏 味 又 难 读 。 有 两 种 更 可 取 的 描 
述 自 动机 的 记号 : 

1. 转移 图 ， 就 是 在 2.1 节 看 到 的 那 种 图 。 

2. 转移 表 ， 就 是 列 出 6 函数 的 表格 ， 隐 含 地 说 明 状态 集合 和 输入 字母 表 。 

223.1 转移 图 

一 个 DFA 4 = (Q, X, ô, go, 下) 的 转移 图 是 如 下 定义 的 图 : 

a) 对 Q 中 每 个 状态 ， 存 在 一 个 顶点 。 

b) 对 Q 中 每 个 状态 qo 和 中 每 个 输入 符号 a， 设 Cg, a) = p。 于 是 转移 图 有 从 顶点 4 到 顶点 p 的 
带 a 标 记 的 箭 绝 。 如 果 有 几 个 输入 符号 都 导致 从 4 到 p 的 转移 ， 则 转移 图 有 一 个 由 这 些 符号 
列表 标记 的 稍 弧 。 
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c) 有 一 个 进入 初始 状态 go 的 带 Start 标 记 的 箭 弧 。 这 个 箭 弧 没 有 任何 出 发 顶点 。 
A) 对 应 于 接受 状态 (属于 F 的 那些 状态 ) 的 顶点 用 双 圆 圈 标 记 。 不 属于 F 的 状态 用 单 圆圈 。 


例 2.2 图 2-4 显 示 了 例 2.1 中 设计 的 DFA 的 转移 图 。 在 这 个 图 中 看 到 与 三 个 状态 对 应 的 三 个 顶 
点 。 有 一 个 Start 箭 弧 进 入 初始 状态 go， 接 受 状态 4 表示 成 双 圆 圈 。 从 每 个 状态 发 出 一 个 带 0 标记 
的 箭 弧 和 一 个 带 1 标 记 的 箭 弧 (但 在 状态 4 的 情况 下 ， 两 个 箭 弧 合 并 成 一 个 带 两 个 标记 的 箭 弧 ) 。 
这 些 箭 弧 每 个 都 对 应 了 例 2.1 设 计 的 5 事实 转移 之 一 。 o 

0 


1 
Start 
“0 6 -@) a 
图 2-4 接受 所 有 带子 串 01 的 串 的 DFA 的 转移 图 


2.2.3.2 转移 表 
转移 表 是 习惯 上 对 像 6 这 样 有 两 个 变量 和 一 个 返回 值 的 函数 的 表格 表示 。 这 个 表 的 各 行 对 应 
着 状态 ， 各 列 对 应 着 输入 。 在 状态 q 对 应 的 行 和 输入 a 对 应 的 列 这 个 位 置 上 


的 项 是 状态 6(g, 0)。 0 11 

例 2.3 PIZARRO EAM SHR. AMR TH e | | ® 
表 的 其 他 两 个 特征 。 初 始 状态 用 箭头 标记 ， 接 受 状态 用 星 号 标记 。 由 于 q | e | a 
观察 各 行 和 各 列 的 标题 就 能 推断 出 状态 集合 和 输入 符号 ， 所 以 现在 就 能 “图 2.5 例 21 的 DEA 


从 转移 表 读 出 所 需 的 所 有 信息 ， 来 惟一 地 规定 这 个 有 穷 自动 机 。 口 的 转移 表 
2.2.4 把 转移 函数 扩展 到 串 


已 经 非 形式 化 地 解释 过 DFA 定 义 一 个 语言 ， 即 导致 从 初始 状态 到 接受 状态 的 状态 转移 序列 
的 所 有 的 串 的 集合 。 就 转移 图 而 言 ，DFA 的 语言 是 从 初始 状态 到 任何 接受 状态 的 所 有 路 径 的 标 
记 的 集合 。 

现在 ， 需 要 准确 说 明 DFA 的 语言 的 概念 。 为 此 ， 定 义 扩展 转移 函数 ， 描 述 从 任何 状态 开始 
读 任何 输入 序列 时 所 发 生 的 事情 。 如 果 5 是 转移 函数 ， 则 从 5 构造 出 的 扩展 转移 函数 称 为 8。 扩 
展 转移 函数 是 这 样 的 函数 : 接收 状态 4 和 串 w， 返 回 状 态 p，p 是 当 自动 机 从 g 开 始 处 理 输入 序列 w 
时 所 到 达 的 状态 。 通 过 对 输入 串 的 长 度 进行 归纳 来 定义 8 如 下 : 

基础 ，6(q, 6) = 4。 也 就 是 说 ， 如 果 在 状态 4 下 不 读 输入 ， 就 还 处 在 状态 4。 

归纳 :假设 w 是 形 如 ra 的 串 ， 也 就 是 说 ，“ 是 w 的 结尾 符号 ，x 是 包含 除 结尾 符号 外 的 所 有 符 
BRS, fán, Ew = 1101 分 解 成 x= 110 和 a = 1。 于 是 

5(q,) = ô( Ô(q, 3), a) (2-1) 

现在 式 (2-1) 可 能 看 起 来 有 点 难以 理解 ， 但 是 其 思想 很 简单 。 为 了 计算 5(q, w, HEHEA x, 
自动 机 在 处 理 了 w 的 除 结尾 符号 外 的 所 有 符号 之 后 所 处 的 状态 。 假 设 这 个 状态 是 p， 也 就 是 


O 回忆 一 下 我 们 的 约定 : 字母 表 开 头 的 字母 是 符号 ， 靠 近 字母 表 后 端的 字母 是 串 。 为 了 理解 短语 “ 形 如 xa" 的 
意思 ， 就 需要 这 个 约定 。 
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W, ôa D =p. BAS, w) 就 是 从 状态 p 在 输入 a (w 的 结尾 符号 ) 上 转移 所 得 到 的 状态 。 也 就 
是 说 ，6(q,w) =6 (p,q)。 


例 2.4 设计 一 个 DFA 以 接受 语言 
工 ={w1w 同 时 有 偶数 个 0 和 偶数 个 1} 


很 清楚 ， 这 个 DFA 的 状态 的 任务 是 同时 数 0 和 1 的 个 数 ， 但 是 需要 模 2 来 计数 。 也 就 是 说 ， 用 状态 
来 记 住 至 此 看 到 的 0 的 个 数 是 偶数 还 是 奇数 ， 也 记 住 至 此 看 到 的 1 的 个 数 是 偶数 还 是 奇数 。 因 此 
有 4 个 状态 ， 这 4 个 状态 可 以 给 出 下 列 解释 : 

qo: 迄今 为 止 看 到 的 0 的 个 数 和 1 的 个 数 都 是 偶数 。 

q: 迄今 为 止 看 到 的 0 的 个 数 是 偶数 而 1 的 个 数 是 奇数 。 

a: 迄今 为 止 看 到 的 1 的 个 数 是 偶数 而 0 的 个 数 是 奇数 。 

943: 迄今 为 止 看 到 的 0 的 个 数 和 1 的 个 数 都 是 奇数 。 

状态 qo 既是 初始 状态 也 是 惟一 的 接受 状态 。qo 是 初始 状态 ， 因 为 在 读 任何 输入 之 前 ， 看 到 的 
0 的 个 数 和 1 的 个 数 都 是 9，0 是 偶数 。qo 是 惟一 的 接受 状态 ， 因 为 qo 恰好 描述 了 0 和 1 的 序列 属于 这 
个 语言 [的 条 件 。 

现在 几乎 知道 了 如 何 指定 语言 L 的 DFA。 这 个 DFA 是 

A=({qo, 41, 92, 93}, {0, 1},6, go, {q0}) 

其 中 用 图 2-6 的 转移 图 来 描述 转移 函数 6。 注意 ， 每 个 0 输入 如 何 导致 状态 穿 过 水 平 虚 线 。 因 此 ， 
在 看 到 偶数 多 个 0 之 后 ， 总 是 在 这 条 水 平 虚线 之 上 处 在 状态 q 或 9， 
中 ， 而 在 看 到 奇数 多 个 0 之 后 ， 总 是 在 这 条 水 平 虚 线 之 下 处 在 状 
态 q: 或 9; 中。 同样 ， 每 个 1 导致 状态 穿 过 垂直 虚线 。 因 此 ， 在 看 到 
偶数 多 个 1 之 后 ， 总 是 在 左 侧 处 在 状态 qo 或 9: 中 ， 而 在 看 到 奇数 多 
个 1 之 后 ， 是 在 右 侧 处 在 状态 qi 或 9; 中 。 这 些 事实 是 这 4 个 状态 具 
有 指定 解释 的 非 形式 化 证 明 。 但 是 ， 按 照例 1.23 的 精神 使 用 共同 
归纳 法 ， 就 可 以 形式 化 地 证 明 关于 这 些 状态 的 断言 的 正确 性 。 

也 可 以 用 转移 表 来 表示 这 个 DFA， 图 2-7 显 示 这 个 表 。 但 是 ， 
我 们 不 仅 关心 这 个 DFA 的 设计 ， 还 希望 用 它 来 解释 如 何 从 转移 函 
数 6 来 构造 5。 假设 输入 是 110101。 由 于 这 样 一 个 串 同时 有 偶数 多 个 0 和 1， 所 以 我 们 期 望 这 样 一 
个 串 属于 这 个 语言 。 因 此 ， 期 望 8(qo, 110101) = qo， 因 为 qo 是 惟一 的 接受 状态 。 现 在 来 验证 这 个 
断言 。 

这 个 验证 包括 : 从 = 开始， 长 度 逐 渐 增加 ， 对 110101 的 每 个 前 缀 w 计 算 8(go, w)。 把 这 些 计算 
总 结 如 下 : 





图 2-6 例 2.4 的 DFA 的 转移 图 


Doe | a 
* 5(qo, £) = qos * > Qo || 92 |a 
* 5(qo, 1) = 8 (6(Go, £), 1) = 5 (go, I=. M || 43 | do 
i 5. % || qo | as 
* 5(qo, 11) = 6 (5 (qo, 1), 1) = ô (q1, 1) = qos q 
* 6 (qo, 110) = 5 (6(qo, 11), 0) = 6 (qo, 0) = q2. 图 2-7 例 2.4 的 DFA 


e (qo, 1101) = 6 (6(qo, 110), 1) = 5 (Q2, 1) = qs 的 转移 表 
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+ 5(qo, 11010) = 6 ( 5 (go, 1101), 0) = ô (qs, 0) = 41. 
+ 5(qo, 110101) = 6 (5 (go, 11010), 1) = 5 (qr, 1) = qo o 





标准 记号 与 局 部 变量 


阅读 本 节 之 后 ， 读 者 可 能 认为 必须 遵守 本 书 的 习惯 记号 ， 也 就 是 说 ， 必 须 用 6 瑟 示 转移 
函数 ， 用 4 表示 DFA 的 名 字 ， 等 等 。 本 书 倾向 于 在 所 有 的 例子 中 用 同样 的 变量 来 表示 同样 
的 东西 , 因为 这 有 助 于 读者 记忆 变量 的 类 型 ,这 非常 类 似 于 在 程序 中 变量 i 几乎 总 是 整 型 的 。 
但 是 ， 可 以 随便 用 任何 名 字 来 称呼 自动 机 的 部 件 或 其 他 任何 东西 。 因 此 ， 如 果 愿 意 ， 读 者 
可 以 随便 把 DFA 称 为 M， 把 转移 函数 称 为 7。 

而 且 ， 毫 不 奇怪 ， 在 不 同 的 上 下 文中 同样 的 变量 表示 不 同 的 东西 。 例 如 ， 例 2.1 和 例 2.4 
的 DFA 都 给 出 称 为 6 的 转移 函数 。 但 是 ， 这 两 个 转移 函数 各 自 都 是 局 部 变量 ， 只 属于 其 所 在 
的 例子 。 这 两 个 转移 函数 是 非常 不 同 的 ， 相 互 之 间 没 有 任何 关系 。 











2.2.5 DFA 的 语言 


现在 ,定义 DFA 4 =(Q， X, ð, qo, F) 的 语言 。 这 个 语言 记 作 L(A)， 定 义 为 
L(A) = (w 15 (qo, w) 属于 F } 


也 就 是 说 ， 语 言 4 是 让 初始 状态 go 通 向 接受 状态 之 一 的 串 w 的 集合 。 如 果 对 某 个 DEFA A 来 说 [是 
LA)， 那 么 我 们 就 说 是 正则 语言 。 


例 2.5 ”前 面 说 过 ， 如 果 A 是 例 2.1 的 DFA， 则 4) 是 包含 01 子 串 的 所 有 0 和 1 的 串 。 如 果 A 是 例 
2.4 的 DFA， 则 (4) 是 0 和 1 的 个 数 都 是 偶数 的 所 有 0 和 1 的 串 。 口 


2.2.6 习题 
习题 2.2.1 ”图 2-8 中 是 一 个 滚 大 理 石 球 玩具 。 在 4 或 B 处 扔 下 一 个 大 理 石 球 。 杠 杆 加 、 交 和 ma 让 大 


图 2-8 滚 大 理 石 球 玩具 
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理 石 球 落 向 左 方 或 右 方 。 每 当 一 个 大 理 石 球 遇 到 一 个 杠杆 时 ， 就 引起 这 个 杠杆 在 大 理 石 球 通过 
之 后 改变 方向 ， 所 以 下 一 个 大 理 石 球 会 走 相 反 的 分 支 。 
* a) 用 有 穷 自 动机 为 这 个 玩具 建 模 。 设 输入 4 和 B 表 示 扔 进 大 理 石 球 的 入 口 。 设 接受 对 应 于 大 
2 理 石 球 从 D 出 来 ， 不 接受 则 表示 大 理 石 球 从 C 出 来 。 
1b) 非 形式 化 地 描述 这 个 自动 机 的 语言 。 
©) 假设 另 一 种 情况 是 ， 杠 杆 在 允许 大 理 石 球 通过 之 前 就 改变 方向 。(a) 和 (b) 部 分 的 答案 会 变 
成 怎样 ? 

村 习题 2.2.2 6 是 这 样 定义 的 ， 把 输入 串 分 解 成 任意 趾 后 面 跟着 一 个 符号 (在 归纳 部 分 ， 等 式 
(2-1))。 但 是 ， 非 形式 化 地 认为 ，5 描 述 了 沿 着 带 某 个 标记 串 的 路 径 所 发 生 的 事情 ， 如 果 这 是 对 
的 ， 则 在 6 的 定义 中 如 何 分 解 输 入 串 其 实 是 无 关 紧要 的 。 证 明 : 实际 上 对 于 任意 状态 4 以 及 串 x 
Ay, Ôl) = 5(5@,»,y). RE: 对 进行 归纳 。 

! 习题 2.2.3 证明: 对 于 任意 状态 4、 串 zx 以 及 输入 符号 ob， 5g, ax = Ola, a), x), RE: Fl 
用 习题 2.2.2。 

习题 2.2.4 给 出 接受 下 列 在 字母 表 {0, 1} 上 的 语言 的 DFA， 
* a) 所 有 以 00 结 尾 的 串 的 集合 。 

b) 所 有 带 3 个 连续 的 0 (不 必 在 结尾 ) 的 串 的 集合 。 

©) 带 011 子 串 的 串 的 集合 。 
! 习题 2.2.5 给 出 接受 下 列 在 字母 表 {0,1} 上 的 语言 的 DFA: 
a) 所 有 任何 5 个 连续 符号 都 至 少 包含 2 个 0 的 串 的 集合 。 

b) 所 有 倒数 第 10 个 符号 是 1 的 串 的 集合 。 

©) 以 01 开 头 或 结尾 〈 含 同时 ) 的 串 的 集合 。 

D 0 的 个 数 被 5 整除 ，1 的 个 数 被 3 整除 的 串 的 集合 。 

1 习题 2.2.6 给 出 接受 下 列 在 字母 表 {0, 1} 上 的 语言 的 DFA: 

*a) 所 有 以 1 开头 ， 当 解释 成 二 进 制 整数 时 是 5 的 倍数 的 串 的 集合 。 例 如 ， 串 101、1010 和 1111 
都 属于 这 个 语言 ， 而 0、100 和 111 则 不 属于 。 
b) 所 有 倒 过 来 解释 成 二 进 制 整数 时 被 5 整除 的 串 的 集合 。 属 于 这 个 语言 的 串 的 例子 是 0、 
010011、1001100 和 0101 。 
习题 2.2.7 设 A 是 一 个 DFA，g 是 A 的 一 个 特定 状态 ， 使 得 对 所 有 输入 符号 a，5 (g,a) = g。 通 
过 对 输入 长 度 进行 归纳 ， 证 明 ， 对 所 有 输入 串 w，6(q,w) = gq。 
习题 2.2.8 设 4 是 一 个 DEA，< 是 4 的 这 样 一 个 输入 符号 ， 使 得 对 4 的 所 有 状态 9， 有 5(q,a) = q。 
a) 通过 对 n 进 行 归纳 ,证 明 ， 对 所 有 m>0，5(g,w)=4， 其 中 必 是 由 n 个 0 组 成 的 串 。 
b) 证 明 : 要 么 {aj CLA), EAF NLA) =O, 
*1 习题 22.9 iA=(0, 3,6,qo, {gr 是 一 个 DFA， 假 设 对 所 有 属于 Sita, 495 qo,a)=5(q.0), 
a) 证 明 ; itiwe, H ôl, w) = ôl, w). 
b) 证 明 : 如 果 * 是 属于 L(4) 的 非 空 串 ， 则 对 所 有 上 > 0, xt ( 即 x 连 写 k 遍 ) 也 属于 L(A)。 
所 习题 2.2.10 考虑 带 下 列 转移 表 的 DFA: 
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fo ja 
rd be 
+B BIA : 
非 形式 化 地 描述 这 个 DFA 接 受 的 语言 ， 通 过 对 输入 串 的 长 度 进行 归纳 ， 证 明 这 个 描述 是 正确 的 。 
提示 : 当 建 立 归纳 假设 时 ， 断 言 什么 样 的 输入 导致 每 个 状态 ， 而 不 只 是 断言 什么 样 的 输入 导致 
接受 状态 ， 这 样 更 明智 些 。 
! 习题 2.2.11 对 下 列 转移 表 重 复习 题 22.10。 


2.3 非 确定 型 有 穷 自 动机 


“ 非 确定 型 ”有 穷 自 动机 (NFA) 具有 同时 处 在 几 个 状态 的 能 力 。 通 常 把 这 种 能 力 说 成 对 输 
入 进行 “猜测 ”的 能 力 。 例 如 ， 当 用 自动 机 在 长 的 文本 串 当中 搜索 特定 的 字符 串 〈 如 关键 字 ) 
时 ,“ 猜 测 ” 到 正 处 在 某 个 这 种 串 的 开头 ， 并 且 专 门 用 一 个 状态 序列 来 逐个 字符 地 验证 这 样 的 串 
的 出 现 ， 这 是 很 有 帮助 的 。 在 2.4 节 将 会 看 到 这 种 类 型 的 应 用 的 例子 。 

在 检查 应 用 之 前 ,需要 定义 非 确定 型 有 穷 自动 机 ， 证 明 每 个 非 确定 型 有 穷 自动 机 都 接受 某 
个 DFA 也 接受 的 语言 。 也 就 是 说 ，NFA 恰 好 接受 正则 语言 ， 恰 好 与 DFA 一 样 。 然 而 ， 讨 论 NFA 是 
有 许多 理由 的 。 通 常 NFA 比 DEA 更 紧凑 也 更 容易 设计 。 而 且 ， 总 是 可 以 把 NFA 转 换 成 DFA， 但 
DFA 可 能 HENFA 要 多 指数 多 个 状态 。 幸 运 的 是 ， 这 种 情况 很 少见 。 


2.3.1 非 确定 型 有 穷 自 动机 的 非 形式 化 观点 


与 DFA 一 样 ，NFA 也 有 一 个 有 穷 的 状态 集合 、 一 个 有 穷 的 输入 符号 集合 ， 一 个 初始 状态 和 
一 个 接受 状态 的 集合 。 也 有 一 个 通常 称 为 6 的 转移 函数 。DFA 与 NFA 的 区 别 在 于 56 的 类 型 。 对 于 
NFA，6 是 一 个 以 状态 和 输入 符号 为 变量 的 函数 (与 DFA 转 移 函 数 一 样 )， 但 是 返回 0 个 、1 个 或 
多 个 状态 的 集合 (而 不 是 像 DFA 那 样 必须 恰好 返回 一 个 状态 )。 首 先 看 一 个 NFA 的 例子 ， 然 后 给 
出 精确 的 定义 。 


例 2.6 ”图 2-9 显 示 一 个 非 确定 型 有 穷 自动 机 ， 任 务 是 接受 所 有 仅 以 01 结 尾 的 0 和 1 的 串 。 状 态 
qo 是 初始 状态 ， 可 以 认为 ， 只 要 还 没有 “猜测 ”结尾 的 01 已 经 开始 ， 就 处 在 状态 qo 里 (也许 还 有 
别 的 状态 ) 。 总 是 有 这 样 的 可 能 : 即使 下 一 个 符号 是 0， 这 个 符号 也 不 是 结尾 01 的 开始 。 因 此 ， 
状态 qo 在 0O 和 1 上 都 可 以 转移 到 自身 。 


0,1 


Start © 0 1 


图 2-9 接受 所 有 以 01 结 尾 的 串 的 NFA 





但 如 果 下 一 个 符号 是 0， 这 个 NFA 也 可 以 猜测 结尾 01 开 始 了 。 因 此 有 一 个 带 标记 0 的 箭 弧 从 go [55] 


[4] 
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56 








导向 qi。 注 意 ， 有 两 个 从 go 出 发 带 0 标记 的 箭 弧 。NEA 可 以 选择 进入 go 或 4,， 实 际 上 都 进入 ， 当 给 
出 准确 定义 时 就 会 看 到 这 一 点 。 在 q' 状 态 下 ， 这 个 NFA 验 证 下 一 个 符号 是 1， 如 果 是 的 ， 就 进入 
9 状态 而 接受 。 

注意 ， 没 有 从 9 出 发 带 0 标记 的 箭 弧 ， 也 根本 没有 从 4: 出 发 的 箭 弧 。 在 这 些 情况 下 ， 这 个 
NFA 中 存在 的 与 这 些 状态 对 应 的 线程 干脆 “死亡 ”了 ， 但 其 他 线程 还 可 能 继续 存在 。DFA 对 每 
个 输入 符号 恰好 有 一 个 箭 弧 离 开 每 一 个 状态 ，NFA 就 没有 这 样 的 约束 。 例 如 ， 在 图 2-9 中 看 到 了 
箭 弧 数 是 0 个 、1 个 和 2 个 的 情况 。 

图 2-10 表 示 NFA 如 何 处 理 输入 的 过 程 。 这 个 图 显示 了 在 图 2-9 的 自动 机 收 到 输入 序列 00101 时 
发 生 的 事情 。 只 能 从 初始 状态 qo 开始 。 当 读 第 一 个 0 时 ， 这 个 自动 机 可 以 进入 状态 qo 或 状态 qi， 
所 以 都 进入 了 。 图 2-10 的 第 二 列表 示 了 这 两 个 线程 。 


% = % = % = % = b — % 


See ce 





(不 能 继续 ) 


0 0 1 0 1 
图 2-10 在 处 理 输入 序列 00101 时 NFA 所 处 的 状态 


然后 读 第 二 个 90。 状态 qo 又 可 以 同时 进入 qo 和 qi。 但 状态 q! 在 0 上 没有 转移 ， 所 以 死亡 了 。 当 
第 三 个 输入 1 出 现时 ， 必 须 同时 考虑 从 qo 和 qi 出 发 的 转移 。 我 们 发 现 qo 在 1 上 只 到 go， 而 qi 只 到 gq;。 
因此 ， 在 读 001 后 ， 这 个 NFA 处 在 状态 go 和 4: 中 。 由 于 4: 是 接受 状态 ， 所 以 这 个 NFA 接 受 001。 

但 输入 还 没有 结束 。 第 4 个 输入 0 导致 4 的 线程 死亡 ， 而 qo 同时 进入 qo 和 gq1。 最 后 一 个 输入 1 使 
和 到 qo 而 ql 到 92。 由 于 又 处 在 一 个 接受 状态 中 ， 所 以 接受 00101。 口 


2.3.2 非 确定 型 有 穷 自动 机 的 定义 


现在 介绍 与 非 确定 型 有 穷 自动 机 有 关 的 形式 化 概念 ， 同 时 指出 DFA 与 NFA 之 间 的 区 别 。 实 
质 上 可 以 像 DFA 那 样 来 表示 NFA ; 
A=(Q, 2,6,g0,F) 
Jp: 
1. 2 是 一 个 有 穷 的 状态 集合 。 
2. 3 是 一 个 有 穷 的 输入 符号 集合 。 
3.qo 是 初始 状态 ， 属 于 Q。 
4.F 是 终结 (或 接受 ) 状态 的 集合 ， 是 C 的 子 集合 。 
5. 转 移 函 数 5 是 一 个 以 2 中 一 个 状态 和 三 中 一 个 输入 符号 作为 变量 并 返回 @ 的 一 个 子 集合 的 
函数 。 注 意 ，NFA 与 DFA 之 间 的 惟一 区 别 在 于 5 返回 值 的 类 型 在 NFA 的 情况 下 ， 返 回 值 
是 一 个 状态 集合 ， 而 在 DFA 的 情况 下 ， 返 回 值 是 单个 状态 。 
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例 2.7 图 2-9 的 NFA 可 以 形式 化 地 规定 为 : 
({qo, qi, q2}, {0, 1}, 6, go, {q2}) 
其 中 用 图 2-11 的 转移 表 来 给 出 转移 函数 6. o lo 1 
注意 ， 转 移 表 可 用 来 规定 NEFA 的 转移 函数 ， 也 可 用 来 规定 DEFA 的 一 和 || {90,1} | {a0} 
转移 函数 。 惟 一 的 区 别 在 于 ，NFA 转 移 表 中 每 一 项 都 是 一 个 集合 , 即 。 ,2 | fm) 














*g2 
使 这 个 集合 是 单元 素 集合 【只 有 一 个 元 素 ) 。 还 要 注意 ， 当 在 给 定 输 gol 一 个 接受 所 有 LO1 
和 上 没有 从 给 定 状态 出 发 的 转移 时 ， 正 确 的 项 是 空 集合 纪 。 结尾 的 惠 的 NEA 的 转移 表 


2.3.3 扩展 转移 函数 


与 DFA 一 样 ， 需 要 把 NFA 的 转移 函数 5 扩展 成 为 扩展 转移 函数 8， 6 接收 状态 4 和 输入 符号 串 
w， 而 返回 这 样 的 状态 集合 : 如 果 NFA 在 状态 4 上 开始 并 处 理 输入 串 w， 那 么 NEFA 就 处 在 这 些 状 态 
里 。 这 个 思想 如 图 2-10 所 示 ， 本 质 上 ， 如 果 4 是 第 一 列 中 单独 的 状态 ， 则 5(q, w) 就 是 在 读 w 之 后 
所 求 出 的 那 一 列 状态 。 例 如 ， 图 2-10 表 示 6(qo, 00D={qo, 4?}。 形 式 化 地 ， 对 NEFA 的 转移 函数 5 来 
定义 6 的 方式 如 下 : 

基础 ，6(q, 6) = {9}。 也 就 是 说 ， 不 读 任何 输入 符号 ,就 只 能 处 在 原来 的 状态 。 

归纳 : 假设 w 形 如 va， 共 中 a 是 w 的 结尾 符号 ，x 是 w 的 剩余 部 分 。 还 假设 Âl, x) = {Pi prs >, 
Pio BE ; 

U ô (pn a) = (rise, stm} 


那么 6(q, W) = {ri ra …, Pno MEREEIESGILIEIE, EKHI l, w): HEHE. 9, Wa 
遵循 从 这 些 状 态 中 任何 一 个 状态 出 发 的 带 a 标记 的 任何 转移 。 


例 2.8 用 6 来 描述 图 2-9 的 NFA 处 理 输入 00101 的 步 骆 。 这 些 步 踊 总 结 如 下 : 
. lgo, €) = {qo}。 
- 8 (qo, 0) = 6(q0,0) = {qo,q1}。 
. $(qo, 00) = ô (go, OU (q1, 0) = {q0, G}UD={qo, gi}. 
. 5 (qo, 001) = ô (qo, 1)US (41, 1) = {go}U {42} = {qo0, ga}. 
. 6(qo, 0010) = 6 (qo, 0)US (q2, 0) = {qo, 1} UZ = (qo. gi} » 
6. 5(qo, 00101) = 5 (go, IDUS (q1, 1) = {go}U{q2} = {qo 42}. 
第 (1) 行 是 基础 规则 。 第 (2) 行 通过 把 5 作用 到 上 个 集合 中 单独 的 状态 qo 上 ， 并 得 到 结果 {go, aK 
得 出 。 第 (3) 行 通过 把 5 对 输入 0 作用 到 上 个 集合 中 的 两 个 状态 上 ， 并 取 结 果 的 并 集 来 得 出 。 也 就 
HEAR, 8 (qo,0) = {qo, gt} 而 6 (q1,0) = D, HEFT Mð (go, 1) = {qo} 和 6 (qu, 1) = {aa} RIFE. 
第 (5) 行 和 第 (6) 行 类 似 于 第 (3) 行 和 第 (4) 行 。 o 


2.3.4 NFA 的 语言 


wm 一 


前 面 说 过 ，NFA 接 受 串 w 的 条 件 是 : 在 读 w 的 各 个 字符 时 ， 有 可 能 形成 对 下 一 个 状态 的 选择 
序列 ， 并 从 初始 状态 到 达 任 何 接受 状态 。 用 w 的 输入 符号 的 其 他 选择 导致 非 接受 状态 或 者 根本 
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不 会 导致 任何 状态 ( 即 状态 序列 “死亡 ")， 这 样 的 事实 不 妨碍 NFA 在 总 体 上 接受 w。 形 式 化 地 ， 
MURA = (Q, E, ô, qo, F) 是 一 个 NFA， 则 

L(A) = {wl 5 (qo, WNF + Ø} 
也 就 是 说 ,L(A4) 是 SHE 5 (qo, 网 至 少 包含 一 个 接受 状态 的 串 w 的 集合 。 


例 2.9 作为 例子 ， 形 式 化 地 证 明 图 2-9 的 NFA 接 受 语言 L = fw lw 以 01 结 尾 }。 证 明 是 对 刻画 3 
个 状态 的 下 列 3 个 命题 的 互 归纳 。 
1. 对 每 个 w，6(qo, mw) 包含 qo。 
2. 6(qoww) 包 含 g!， 当 且 仅 当 wi 以 0 结尾 。 
3. 6(qo, mw) 包 含 9， 当 且 仅 当 wb01 结 尾 。 
为 了 证 明 这 些 命题 ， 需 要 考虑 4 怎样 到 达 每 一 个 状态 ， 即 最 后 一 个 输入 符号 是 什么 ， 以 及 A 在 读 
那个 符号 之 前 处 在 什么 状态 ? 
由 于 这 个 自动 机 的 语言 是 使 得 6(qo, w) 包 含 4; 的 串 w 的 集合 〈 因 为 4: 是 惟一 的 接受 状态 )， 这 
三 个 命题 的 证 明 ， 特 别 是 G3) 的 证 明 ， 就 保证 了 这 个 NFA 的 语言 是 以 01 结 尾 的 串 的 集合 。 这 个 定 
理 的 证 明 是 对 w 的 长 度 Iwl 从 长 度 0 开始 归纳 。 
基础 ， 如 果 Iwl = 0， 则 w = e, MEOE lgo, sj 包含 9， 根 据 8 的 定义 的 基础 部 分 ， 这 是 对 
的 。 对 于 命题 (2)， 知 道 e 不 以 0 结尾 ， 也 知道 qo s) 不 包含 g1， 这 也 是 根据 5 的 定义 的 基础 部 分 。 
因此 ， 这 个 “ 当 且 仅 当 ” 命 题 两 边 的 假设 都 为 假 ， 因 此 这 个 命题 的 两 个 方向 都 为 真 。 对 w = eli 
明 命 题 (3)， 本 质 上 与 上 面 证 明 命题 (2) 是 一 样 的 。 
归纳 : 假设 w = xa， 其 中 a 是 一 个 符号 ， 要么 是 09， 要么 是 1。 可 以 假设 命题 (1) 到 (3) 都 对 x 成 
立 ， 需 要 证 明 对 w 也 都 成 立 。 也 就 是 说 ， 假 设 wl =n + 1， 所 以 tl =n。 对 n 假 定 归纳 假设 ， 对 n+ 1 
进行 证 明 。 
1. 知 道 5(qo, 疏 包含 gp。 由 于 在 0 和 1 上 都 有 从 go 到 自身 的 转移 ， 所 以 6(go, NAG, HILL 
就 对 w 证 明了 命题 (1)。 
2. (24) 假设 w 以 0 结尾 ， 即 a = 0。 对 x 应 用 命题 (1)， 就 知道 8(go, 中 包含 站。 由 于 在 输入 O 上 
有 从 qo 到 q 的 转移 ， 所 以 6(qo,w) 包 含 gi。 
( 仅 当 ) 假设 6(qo, ww) 包含 q1。 如 果 现 察 图 2-9 中 的 图 ， 就 看 到 进入 状态 q1 的 惟一 方式 是 让 
输入 序列 w 具 有 x0 的 形式 。 这 就 是 以 证 明 命题 (2) 的 “ 仅 当 ”部 分 了 。 
3. (4) 假设 w 以 01 结 尾 。 于 是 如 果 w = xa， 就 知道 a = 1WTiix 以 0 结尾 。 对 x 应 用 命题 (2)， 就 
知道 6(qo, 区 包含 q1。 由 于 在 输入 1 上 有 从 gi 到 q: 的 转移 ， 所 以 了 gh, 罗 ) AQ. 
( 仅 当 ) 假设 8(q, ww) 包含 qs。 观察 图 2-9 中 的 图 ， 发 现 进 入 状态 前 的 崔 一 方式 是 w 具 有 的 
形式 ， 其 中 (go, DAE, HRA), WLO, E WOENE, RÈ 
就 证 明了 命题 (3)。 fe] 


23.5 确定 型 有 穷 自 动机 与 非 确定 型 有 穷 自动 机 的 等 价 性 


对 许多 语言 来 说 ， 比 如 以 01 结 尾 的 串 的 语言 ( 例 2.6)， 构 造 NFA 比 构造 DEA 更 容易 ， 出 大意 
料 的 是 ， 每 一 个 用 某 个 NFA 描 述 的 语言 也 能 用 某 个 DFA 来 描述 。 而 且 ， 实 际 上 DFA 员 有 与 NFA 大 
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约 一 样 多 的 状态 ， 但 通常 会 有 更 多 的 转移 。 不 过 在 最 坏 情况 下 ， 最 小 的 DFA 可 能 有 2" 种 状态 ， 
而 同一 个 语言 的 最 小 NFA 只 有 n 种 状态 。 

DFA 能 做 NFA 所 做 的 一 切 ， 这 个 证 明 与 一 个 重要 的 构造 有 关 ， 称 为 子 集 构 造 ， 因 为 这 与 构 
造 NFA 状 态 集合 的 所 有 子 集 有 关 。 在 一 般 情况 下 ， 许 多 关于 自动 机 的 证 明 都 与 从 一 个 自动 机 构 
造 另 一 个 自动 机 有 关 。 重 要 的 是 注意 ， 子 集 构 造 是 这 样 一 个 例子 : 说 明 如 何 形式 化 地 用 一 个 自 
动机 的 状态 和 转移 来 描述 另 一 个 自动 机 ， 却 不 知道 前 者 的 具体 情况 。 

子 集 构造 从 一 个 NFA N = (Qv, E, Ôv, qo, Fv) 开始 。 目 标 是 描述 一 个 DFA D = (Qo, X, dp, 
{qo}, Fo), (ELOD) = L(N)。 注 意 ， 这 两 个 自动 机 的 输入 字母 表 是 一 样 的 ，D 的 初始 状态 是 只 包 
含 N 的 初始 状态 的 集合 。D 的 其 他 部 件 构 造 如 下 。 

“Qo 是 Qn 的 子 集 的 集合 ， 即 Qo 是 Qn 的 舌 集 合 。 注 意 ， 如 果 Qw 有 n 种 状态 ， 则 Qo 就 有 2" 种 
状态 。 通 常 这 些 状态 不 都 是 从 Qo 的 初始 状态 可 达 的 。 可 以 “丢弃 ”不 可 达 状 态 ， 所 以 实 
际 上 ，D 的 状态 数 可 能 远 远 小 于 2"。 

"7 是 使 得 SnFxw# 纪 的 Ov 的 子 集合 5 的 集合 。 也 就 是 说 ，Fp 是 所 有 至 少 含有 一 个 N 的 接受 状 
态 的 N 的 状态 集合 的 集合 。 

“对 于 每 个 集合 3 COR 三 中 每 个 输入 符号 a， 


60(5,0) = Udy(p,a) 
PEFS 


也 就 是 说 ， 为 了 计算 5o(S, a)， 检 查 5 中 所 有 的 状态 p»， 看 看 N 在 输入 a 上 从 p 进 入 哪些 状态 ， 
取 所 有 这 些 状态 的 并 集 。 


例 2.10 ” 设 N 是 图 2-9 的 接受 所 有 以 01 结 尾 的 串 的 自动 机 。 由 于 N 的 状态 集合 是 {go, gl, a2}, 
所 以 子 集 构造 产生 一 个 带 2= 8 种 状态 的 DFA， 对 应 于 这 3 种 状态 的 所 有 子 集合 。 图 2-12 显 示 这 8 
种 状态 的 转移 表 。 很 快 就 要 说 明 如 何 计算 其 中 某 些 项 目的 细节 。 

注意 ， 这 个 转移 表 属 于 一 个 确定 型 有 穷 自动 机 。 即 使 这 个 表 中 的 项 目 都 是 集合 ， 所 构造 的 
DFA 的 状态 也 不 是 集合 。 为 了 说 得 更 清楚 一 点 ， 可 以 为 这 些 状 态 设计 新 的 名 字 ， 如 A 表示 B，B 
表示 {qo}， 等 等 。 图 2-13 的 DFA 转 移 表 恰好 定义 与 图 2-12 同 样 的 自动 机 ， 但 是 清楚 地 说 明了 表 中 
的 项 目 都 是 DFA 的 单个 状态 。 





Ee | E ENAN de oji 

A| AlA 

>B|E|B 

clailp 

*D||AlA 

{qos} || {90,41} | {90,92} E|E|F 

pth: {qo, 01} {oo} a z 4 
*{q1, q2 Ø Q2 + 

Saati} {90:41} | {90,92} *H || E |F 





图 2-12 从 图 2.9 得 出 的 完整 的 子 集 构造 图 2-13 为 图 2-12 的 状态 重 命名 


在 图 2-13 的 8 种 状态 中 ， 从 状态 8 开始 ， 只 能 到 达 状 态 8、E 和 F。 其 余 5 种 状态 都 是 从 初始 状 
态 不 可 达 的 ， 也 都 可 以 不 出 现在 表 中 。 如 果 像 下 面 这 样 在 子 集合 上 执行 “ 情 性 求 值 "， 通 常 就 能 
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SEES VIF Bb 1A] RAE RETRA RANE. 
基础 ;我 们 确切 知道 ， 只 包含 N 的 初始 状态 的 单元 素 集合 是 可 达 的 。 
归纳 : 假设 已 经 确定 状态 集合 5 是 可 达 的 。 于 是 对 每 个 输入 符号 a, 计算 状态 集合 6p (5, a), 
知道 这 些 状 态 集合 也 都 是 可 达 的 。 
对 于 所 讨论 的 例子 ， 知 道 {qo} 是 DFA D 的 一 个 状态 。 我 们 发 现 5 ({qo}, 0) = {qo, 41} 和 6p (dq, 
1) = {qo}。 这 两 个 事实 是 这 样 产生 的 : 查看 图 2-9 的 转移 表 ， 注意 到 在 0 上 同时 有 从 qo 到 qo 和 gi 的 
箭 弧 ， 而 在 1 上 只 有 从 % 到 4 的 箭 弧 。 因 此 得 到 DFA 转 移 表 的 一 行 : 图 2-12 的 第 2 行 。 
计算 出 的 两 个 集合 之 一 是 “ 旧 的 "， 已 经 考虑 过 {go} 了。 但 另 一 个 ({qo, gah 是 新 的 ， 必 须 
计算 其 转移 。 发 现 6p (qo, 41}, 0) = {qo, qi} Aldo (Ago, qı}, 1) = {qo, qi}。 比 如 ， 看 后 一 项 计算 ， 
知道 
dp({q0, 91}, 1) = by (go, DUS (41, 1) = {qo}U{q2} = {qo0, q2} 
现在 得 出 了 图 2-12 的 第 5 行 ， 还 发 现 了 一 个 新 的 D 状 态 {qo, 92}。 类 似 的 计算 表明 
p({qo, 42}, 0) = dy (qo, 0)USy (q2, 0) = {qo0, 91}UG = {qo0, q1} 
6p({q0, 92}, 1) = ôv (go, 1)Uðy (q2, 1) = {go} UD = {q0} 
这 些 计算 给 出 了 图 2-12 的 第 6 行 ， 但 只 给 出 了 已 经 见 过 的 状态 集合 。 
因此 ， 完 成 了 子 集 构造 。 知 道 了 所 有 的 可 达 状 态 及 其 转移 。 整 个 DFA 如 图 2-14 所 示 。 注 意 ， 
它 只 有 3 种 状态 , 碰巧 与 构造 来 源 于 的 图 2-9 的 NFA 的 状态 数 完 全 一 样 。 但 与 图 2-9 的 4 个 转移 相 比 ， 
图 2-14 的 DFA 有 6 个 转移 。 口 


1 
图 2-14 从 图 2-9 的 NFA 构 造 出 的 DFA 


需要 形式 化 地 证 明 这 个 子 集 构造 是 正确 的 ， 尽 管 这 些 例子 说 明了 证 明 的 直觉 。 在 读 输入 符 
号 序列 w 后 ， 所 构造 的 DFA 处 在 这 样 一 个 状态 ， 这 个 状态 是 NFA 在 读 w 后 所 处 的 状态 的 集合 。 由 
于 DFA 的 接受 状态 是 至 少 包 含 一 个 NFA 接 受 状态 的 集合 ， 而 且 如 果 NFA 至 少 进入 一 个 自身 的 接 
受 状态 ， 则 NFA 也 接受 ， 于 是 得 出 结论 : 这 个 DFA 与 NFA 接 受 完全 相同 的 串 ， 因 此 接受 相同 的 
语言 。 


Start 





1 
全) 
0 
{a} 





定理 2.11 如 果 万 = (Qo, F, dd, {q0}, Fo) 是 用 子 集 构造 从 NFA N = (Qu, 2, Öv, qo, Fv) 构造 出 
来 的 DFA， 那 么 L(D) = LON)。 
证 明 实际 上 首先 证 明 (对 hw 进行 归纳 ): 
Bp({qo}, w) = bn(qo, w) 


Download at http://www.pinSi.com/ 


LEA EL 43 





注意 ， 每 个 5 函数 都 返回 Q 的 状态 集合 ， 但 8o 把 这 个 集合 解释 成 Co 的 状态 之 一 (Oo 是 COw HIE 
RA), Mi 8v 却 把 这 个 集合 解释 成 Ov 的 子 集合 。 

基础 : 设 wl = 0， 就 是 说 w = se。 根据 DFA 与 NFA 的 8 的 基础 定义 ，6o (fg AF Sw (qo, 8) 都 
是 {qo}。 

归纳 : 设 w 长 度 为 x + 1， 假 设 命题 对 长 度 n 成 立 。 把 w 分 解 成 w = xa， 其 中 a 是 w 的 结尾 符号 。 
根据 归纳 假设 ，85(fgu}, 习 = 6w(qo,)。 设 这 两 个 N 的 状态 集合 都 是 { pi, prs ++, pds 

NFA 的 6 的 定义 的 归纳 部 分 说 明 : 


go) = Us a) 2-2) 
另 一 方面 ， 子 集 构造 说 明 : 
ppn p) a = ons0) 2-3) 
现在 ， 在 DFA 的 6 的 定义 的 归纳 部 分 用 式 (2-3) 和 事实 v {go}, x) = {Pis P = Pe}: 
ô Caa}. w) = 5 (5p Ca), x),a) = 5 (4D, P: rpa} a) = Ùine, 1a) (2-4) 
因此 ， 式 (2-2) 和 式 (2-4) 说 明 Ôo (lgo), w) = Ôx (qo, w)。 当 注意 到 D 和 都 接受 w 当 且 仅 当 6 Ugo), 
功 或 6n(qo,w) 分 别 包含 一 个 Fv 中 的 状态 时 ， 就 得 到 了 L(D)= LN) 的 完整 证 明 。 fa] 


定理 2.12 一 个 语言 被 某 个 DFA 接 受 ， 当 且 仅 当 L 被 某 个 NFA 接 受 。 

证 明 〈 当 ) 这 个 “ 当 ” 部 分 是 子 集 构造 和 定理 2.11。 

( 仅 当 ) 这 个 部 分 是 容易 的 ， 只 需要 把 一 个 DFA 转 化 成 一 个 等 价 的 NFA。 直 观 上 说 ， 如 果 有 
一 个 DFA 的 转移 图 ， 也 可 把 这 个 图 解释 成 一 个 NFA 的 转移 图 ， 这 个 NFA 碰 巧 在 任何 情况 下 恰好 
有 一 个 转移 选择 。 更 加 形式 化 地 说 ， 设 D =(Q, X, dn, qo, F) 是 一 个 DFA。 定 义 N = (2， 了 ,6v, qo, 
F) 是 等 价 的 NEA， 其 中 加 是 用 下 面 这 条 规则 定义 的 ; 


e MR (q,a) =p, Wé5y(q, a) = {p}。 
通过 对 lwl 进 行 归纳 ， 就 容易 证 明 ; 如 果 65 (go,w)=p， 则 
Gn(qo; w) = {p} 
把 这 个 证 明 留 给 读者 。 结 论 是 ，D 接 受 w， 当 且 仅 当 N 接 受 w， 即 LD) = LON), o 
2.3.6 子 集 构 造 的 坏 情形 


在 例 2.10 中 发 现 ，DFA 的 状态 数 不 比 NFA 的 多 。 正 如 前 面 所 述 ,， DEFA 其 有 与 构造 来 源 于 的 
NEFA 大 约 一 样 多 的 状态 ， 实 际 上 这 是 非常 普遍 的 。 但 状态 数 的 指数 增长 也 是 可 能 的 ,从 一 个 x 状 
态 NFA 构 造 出 的 所 有 2" 种 DFA 状 态 可 能 都 是 可 达 的 。 下 面 的 例子 并 不 十 分 接近 这 个 界限 ， 但 有 
助 于 理解 在 与 "+ 1 状态 NFA 等 价 的 最 小 DFA 中 达到 2" 种 状态 的 方式 。 


例 2.13 ”考虑 图 2-15 的 NFA N, LN) 是 所 有 使 得 倒数 第 mn 个 符号 是 1 的 0 和 1 的 所 有 惠 的 集合 。 
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直观 上 说 ， 接 受 这 个 语言 的 DFA DD 必须 记 住 读 过 的 最 后 n 个 符号 。 由 于 最 后 n 个 符号 的 任何 2" 个 
子 集 合 都 可 能 是 要 被 记 住 的 那个 ， 所 以 ， 如 果 D 的 状态 少 于 2" 个 ， 则 存在 某 个 状态 9g， 使 得 D 在 
读 了 两 个 不 同 的 n 位 序列 (比如 ara2…an 和 bib2…b。) 就 处 在 状态 q 中 。 


0,1 


_& 1 @ 0,1 @ 0,1 i 0,1 o-+®O 


图 2-15 这 个 NFA 没 有 少 于 2" 个 状态 的 等 价 DFA 


由 于 这 两 个 序列 是 不 同 的 ， 所 以 它们 必须 在 某 个 位 置 上 不 同 ， 比 如 说 ai*bi。 假 设 (根据 
对 称 性 ) a= 1 而 bi= 0。 如 果 i = 1， 则 gq 必须 既是 接受 状态 ， 又 是 非 接受 状态 ， 因 为 接受 qia2…an 
(倒数 第 "个 符号 是 1) ， 而 不 接受 bib…b。。 如 果 i > 1， 则 考虑 D 在 读 i 一 1 个 0 之 后 进入 的 状态 p。 
那么 p 必 须 既是 接受 状态 ， 又 是 非 接受 状态 ， 因 为 接受 ai ai ,…a, 00…0， 而 不 接受 bi bii bn 
00--0, 

现在 ， 来 看 图 2-15 的 NFA N 如 何 工作 。 有 一 个 状态 g，NEFA 无 论 读 了 什么 输入 ， 总 是 处 在 go 
中 。 如 果 下 一 个 符号 是 1， 则 N 也 可 以 “猜测 ”这 个 1 就 是 倒数 第 "个 符号 ， 所 以 N 进 入 状态 4 以 及 
qos 从 状态 9 出发， 任何 输入 都 让 N 到 达 9， 下 一 个 输入 让 N 到 达 9;， 依 此 类 推 ， 直 到 n 一 1 个 输入 
之 后 ，N 处 在 接受 状态 % 中 * 关于 N 的 状态 的 行为 的 形式 化 命题 是 : 

1. 在 读 任何 输入 序列 w 后 ，N 处 在 状态 go 中 。 

2. 在 读 输入 序列 w 后 ， 对 ; = 1, 2, …, n，NN 处 在 状态 q; 中 ， 当 且 仅 当 w 的 倒数 第 ;个 符号 是 1， 

也 就 是 说 ，w 具 有 x1a1a2…ar! 的 形式 ， 其 中 每 个 qj 都 是 输入 符号 。 

不 去 形式 化 地 证 明 这 些 命 题 ， 证 明 是 很 容易 的 对 lwl 的 归纳 ， 模 仿 例 2.9。 为 了 完成 这 个 自动 机 恰 
好 接受 那些 倒数 第 n 个 位 置 上 是 1 的 串 的 证 明 ， 考 虑 命题 (2) 对 i = n 的 情况 。 也 就 是 说 ，N 处 在 状态 
qr 中 ， 当 且 仅 当 倒 数 第 n 个 符号 是 1。 但 gq 是 惟一 的 接受 状态 ， 所 以 这 个 条 件 也 恰好 刻画 了 N 接 受 
的 串 的 集合 。 口 





例 2.13 中 用 到 一 种 称 为 的 果 原 理 的 重要 推理 技术 。 通 俗 地 说 ， 如 果 铅 子 数 多 于 住 巢 数 ， 
每 只 钨 子 飞 进 某 个 镶 蘑 ， 则 一 定 至 少 有 一 个 馈 巢 有 一 只 以 上 鲍 子 。 在 前 面 的 例子 中 ;“ 饮 
子 ”就 是 n 位 的 序列 ,，“ 鲍 巢 ” 就 是 状态 。 由 于 状态 数 少 于 序列 数 ， 所 以 一 定 有 一 个 状态 对 
应 于 两 个 序列 。 

鲍 巢 原理 可 能 看 止 去 是 显而易见 的 ， 但 实际 寺 它 依赖 于 馈 子 数 是 有 穷 的 。 因 此 ,适用 
于 有 穷 自动 机 ， 让 状态 对 应 于 鲍 集 ， 但 不 适用 于 有 无 穷 多 个 状态 的 其 他 类 型 的 自动 机 。 

为 了 看 出 为 什么 鸟巢 的 有 穷 性 是 必要 的 , 考 虚无 穷 的 情况 , 其 中 鹅 嘛 对 应 于 整数 1,2,…; 
SRST ASO, 1,2,--, PMSF RMS — AS. UE, F>, AILS FHS BIAS MG +1, 
TRESS ABFEEARABI— TM, BAER RAS TIER — TL, 
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死 状 态 与 DFA 缺 少 某 些 转移 


已 经 形式 化 地 把 DFA 定 义 成 ， 在 任何 输入 符号 上 ， 从 任何 状态 出 发 恰好 有 到 达 一 个 状 
态 的 转移 。 但 有 时 候 ， 更 方便 的 做 法 是 把 DFA 设 计 成 ， 在 知道 不 可 能 接受 输入 序列 的 任何 
扩展 的 局 面 下 “死亡 "。 例 如 ， 观 察 图 1-2 的 自动 机 ， 这 个 自动 机 的 任务 是 识别 单个 的 关键 
字 then， 此 外 什么 也 不 做 。 从 技术 上 说 ， 这 个 自动 机 不 是 一 个 DFA， 因 为 在 大 多 数 符号 上 
从 每 个 状态 出 发 都 缺少 转移 。 

但 这 样 的 自动 机 是 一 个 NFA。 如 果 用 子 集 构造 将 其 转化 为 DFA， 则 这 个 自动 机 看 上 去 
几乎 是 一 样 的 ， 但 它 包含 一 个 死 状态 ， 也 就 是 说 ， 在 每 个 输入 符号 上 都 进入 自身 的 非 接受 
状态 。 死 状态 对 应 于 久 ， 就 是 图 1-2 的 自动 机 的 状态 的 空 集合 。 

在 一 般 情况 下 ， 对 任何 状态 和 输入 符号 都 有 不 超过 一 个 转移 ， 可 以 给 任何 这 样 的 自动 
机 加 上 一 个 死 状 态 。 然 后 ， 从 每 个 其 他 状态 4 出 发 ， 在 4 没有 其 他 转移 的 输入 符号 上 ， 加 上 
到 死 状态 的 转移 。 结 果 是 一 个 严格 意义 下 的 DFA。 因 此 ， 如 果 一 个 自动 机 从 任何 状态 出 发 
在 任何 符号 上 至 多 有 一 个 转移 ， 而 不 是 恰好 有 一 个 转移 ， 有 时 候 就 说 这 个 自动 机 是 DFA。 








2.3.7 习题 
* 习题 2.3.1 把 下 列 NFA 转 化 为 DFA: 








>p || {9,8} | {9} 
*q || {r} | {ar} 
r || {s} | {p} 
Ø 


! 习题 2.3.3 把 下 列 NFA 转 化 为 DFA， 并 且 非 形式 化 地 描述 它 接受 的 语言 : 
a | Set 


>p || {p.9) | {P} 
a || {r,s} | {t} 
r || {pr} | {t} 

*8 Ø 
+t Ø Ø 


! 习题 2.3.4 给 出 接受 下 列 语言 的 非 确定 型 有 穷 自动 机 。 尝 试 尽 可 能 多 利用 非 确定 性 。 
*a) 在 字母 表 {0, 1,…,9} 上 的 串 的 集合 ， 使 得 结尾 数字 在 前 面 出 现 过 。 
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b) 在 字母 表 {0, 1, …, 9} 上 的 串 的 集合 ， 使 得 结尾 数字 在 前 面 没有 出 现 过 。 

9) 0 和 1 的 串 的 集合 ， 使 得 有 两 个 0 间隔 的 位 置 数 是 4 的 倍数 。 注 意 ，0 算 是 4 的 倍数 。 

习题 2.3.5 “在 定理 2.12 的 “ 仅 当 ”部 分 里 ， 省 略 了 通过 对 lwl 进 行 归纳 的 证 明 ; MR odgo), 
w)=p, WS (qo, mw)= 全 }。 给 出 这 个 证 明 。 

! 习题 2.3.6 在 “ 死 状 态 与 DFA 缺 少 某 些 转移 ”的 方 框 中 我 们 断言 : 如 果 NFA N 对 任何 状态 和 
输入 符号 至 多 有 一 种 状态 选择 〈 即 5 (4, a) 的 规模 从 不 大 于 1)， 则 用 子 集 构造 从 N 构 造 出 的 DFA D 
恰好 具有 N 的 状态 和 转移 ， 再 加 上 每 当 N 对 给 定 状态 和 输入 符号 缺少 转移 时 ， 所 增加 的 到 一 个 死 
状态 的 转移 。 证 明 这 种 关系 。 

习题 2.3.7 在 例 2.13 中 我 们 断言 NFA N 在 读 输入 序列 w 后 ， 对 i= 1,2, …,m， 处 在 状态 g 中， 
当 且 仅 当 w 的 倒数 第 ;个 符号 是 1。 证 明 这 个 断言 。 


2.4 应 用 : 文本 搜索 


在 本 节 我 们 会 看 到 ， 前 几 节 的 抽象 研究 (其 中 考虑 过 判定 一 个 位 序列 是 否 以 01 结 尾 的 “ 问 
题 ") 实际 上 是 若干 实际 问题 的 非常 好 的 模型 ， 这 些 问题 出 现在 一 些 应 用 中 ， 比 如 Web 搜 索 和 文 
本 信息 提取 。 


2.4.1 在 文本 中 查找 串 


在 Web 和 其 他 在 线 文本 库 的 时 代 ， 一 个 常见 的 问题 是 : 给 定 一 个 单词 集合 ， 查 找 包含 一 个 
(或 全 部 ) 单词 的 所 有 文档 。 搜 索引 擎 是 这 个 过 程 的 通俗 示例 。 搜 索引 擎 使 用 一 种 称 为 “ 倒 排 索 
引 ” 的 特殊 技术 ， 对 Web 上 出 现 的 每 个 单词 《有 1 亿 种 不 同 的 单词 ) ， 保 存 这 个 单词 所 有 出 现 之 
处 的 列表 。 有 非常 大 的 主 存 的 机 器 保持 这 些 列表 的 最 常见 部 分 随时 可 用 ， 允 许 许多 人 在 瞬间 搜 
索 这 些 文档 。 

倒 排 索引 技术 没有 利用 有 穷 自动 机 ，crawler 也 要 花费 大 量 时 间 来 复制 Web 和 建立 索引 。 有 
许多 有 关 的 应 用 不 适合 使 用 倒 排 索引 ， 但 很 适合 于 基于 自动 机 的 技术 。 使 应 用 适 于 用 自动 机 来 
搜索 的 特征 是 : 

1. 所 搜索 的 库 快速 变化 。 例 如 : 

(a) 每 一 天 ， 新闻 分 析 员 希望 搜索 当天 的 在 线 新 闻 文章 寻找 有 关 话题 。 例 如 ， 金 融 分 析 员 
可 能 搜索 特定 的 股票 代码 或 公司 名 称 。 

O “采购 机 器 人 ”希望 搜索 顾客 要 求 的 物品 的 当前 价格 。 机 器 人 从 Web 上 获得 当前 的 目 
录 页 面 ， 然 后 搜索 这 些 页 面 寻找 提示 具体 物品 价格 的 单词 。 

2. 所 搜索 的 文档 不 能 建立 目录 。 例 如 ，Amazon.com 不 让 crawler 轻 易 发 现 本 公司 销售 的 所 有 
书 的 所 有 页 面 。 实 际 上 ， 在 响应 查询 的 “一 瞬间 ” 才 生 成 这 些 页 面 。 但 可 以 发 出 寻找 关 
于 某 个 话题 (比如 “finite automata”) 的 书 的 查询 ， 然 后 搜索 获得 的 页 面 寻找 特定 的 单词 ， 
如 评论 部 分 中 的 “excellent”。 


2.4.2 文本 搜索 的 非 确定 型 有 穷 自 动机 
假设 给 定 称 为 关键 字 的 单词 集合 ， 和 希望 查找 这 种 单词 的 出 现 情况 。 在 这 样 的 应 用 中 ， 可 以 
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设计 一 个 非 确定 型 有 穷 自动 机 ， 用 进入 接受 状态 来 表示 看 到 一 个 这 种 单词 。 把 文档 的 文本 一 次 
二 个 字母 输入 到 NEA， 这 个 NEA 就 识别 出 文本 中 关键 字 的 出 现 情况 。 有 一 种 识别 关键 字 集 合 的 
NFA 的 简单 形式 。 
1. 有 一 个 初始 状态 ， 在 每 个 输入 符号 《比如 可 打印 的 ASCII 字 符 ， 如 果 检查 文本 的 话 ) 上 有 
到 自身 的 转移 。 直 观 上 说 ， 初 始 状态 表示 这 样 的 “猜测 ": 还 没有 开始 看 到 一 个 关键 字 ， 
即使 已 经 看 到 一 个 关键 字 的 一 些 字母 。 
2. 对 每 个 关键 字 ara2…a:， 有 k 个 状态 q1, 92,…, qt。 在 符号 上 有 从 初始 状态 4, 出 发 的 转移 ， 
在 符号 2 上 有 从 初始 状态 4, 到 4: 的 转移 ， 等 等 。 状 态 4* 是 接受 状态 ， 表 示 已 经 发 现 关键 


字 aaz…ak。 


例 2.14 ”假设 希望 设计 一 个 识别 单词 web 和 ebay 的 出 现 的 NFA。 用 上 述 规 则 设计 的 NFA 的 
转移 图 在 图 2-16 中 。 状 态 1 是 初始 状态 ， 用 符号 2 表示 所 有 可 打印 的 ASCII 字 符 。 状 态 2 到 状态 4 
完成 识别 web 的 任务 ， 而 状态 5 到 状态 8 识别 ebay。 口 








图 2-16 一 个 搜索 单词 web 和 ebay 的 NFA 


当然 这 个 NFA 不 是 程序 。 对 于 这 个 NFA 的 实现 ， 有 两 种 主要 选择 : 
1. 写 一 个 程序 来 模拟 这 个 NFA， 计 算出 读 每 个 输入 符号 后 所 处 的 状态 的 集合 。 这 种 模拟 如 
图 2-10 所 示 。 
2. 用 子 集 构造 把 NFA 转 化 成 等 价 的 DFA。 然 后 直接 模拟 这 个 DFA。 
某 些 文本 处 理 程序 实际 上 混合 采用 这 两 种 方法 ， 比 如 UNIX grep 命 令 的 高 级 形式 (egrep 和 
fgrep)。 但 对 本 书 的 目的 而 言 ， 转 换 成 DFA 是 容易 的 ， 而 且 保证 不 增加 状态 数 。 


2.4.3 识别 关键 字 集 合 的 DFA 


可 以 对 任何 NFA 应 用 子 集 构造 。 但 根据 2.4.2 节 的 策略 ， 对 从 关键 字 集 合 设计 出 的 NFA 应 用 
这 个 构造 时 ， 却 发 现 DFA 的 状态 数 从 不 超过 NFA 的 状态 数 。 由 于 在 最 坏 情况 下 ， 转 化 成 DFA 时 
状态 数 会 指数 增长 ， 所 以 这 个 事实 是 个 好 消息 ， 解 释 了 为 什么 经 常 使 用 为 关键 字 设 计 NFA 再 从 
其 构造 DFA 的 方法 。 构 造 DFA 状 态 集合 的 规则 如 下 。 
a) 如 果 qo 是 NFA 的 初始 状态 ， 则 {qo} 是 DFA 的 一 个 状态 。 
b) 假设 p 是 一 个 NFA 状 态 ， 并 且 沿 着 带 ava2…aw 符号 的 路 径 从 初始 状态 可 达 。 则 有 一 个 DFA 
状态 是 由 下 列 NFA 状 态 组 成 的 集合 : 
D go。 
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2)P。 
3) 每 一 个 其 他 的 沿 着 带 ciax…as 后缀 〈 即 形 如 ww;i…an 的 任何 符号 序列 ) 标记 的 路 径 从 
qo 可 达 的 NFA 状 态 。 
注意 ， 在 一 般 情况 下 ， 对 每 个 NFA 状 态 p 都 有 一 个 DFA 状 态 。 但 在 步骤 (b) 中 ， 两 个 状态 可 能 实际 
上 产生 相同 的 NFA 状 态 集合 ， 因 此 成 为 DFA 的 一 个 状态 。 例 如 ， 如 果 两 个 关键 字 以 相同 字母 
(比如 a) 开头 ， 则 带 a 标 记 从 go 到 达 的 两 个 NFA 状 态 就 产生 相同 的 NFA 状 态 集合 ， 因 此 在 DFA 中 
合并 。 


例 2.15 ”从 图 2-16 的 NFA 构 造 DFA， 如 图 2-17 所 示 。DFA 的 每 个 状态 还 在 与 利用 上 面 规则 (b) 
得 出 的 状态 p 相 同 的 位 置 上 。 例 如 ， 考 虑 状态 135， 这 是 {1, 3, 5} 的 缩写 。 这 个 状态 从 状态 3 构造 
而 来 。 它 包括 状态 1， 因 为 DFA 的 每 个 状态 集合 都 这 样 。 它 也 包括 状态 5， 因 为 申 we 的 后 缀 6 让 状 
态 5 从 状态 1 可 达 ， 而 串 we 在 图 2-16 中 到 达 状态 3。 





图 2-17 从 图 2-16 的 NFA 转 化 成 DFA 


可 根据 子 集 构造 来 计算 每 个 DFA 状 态 的 转移 。 规 则 是 简单 的 。 从 任何 包含 初始 状态 go 和 其 
他 一 些 状态 {pi, po …, pa} 的 状态 集合 出 发 ， 对 每 个 符号 x， 确 定 在 NFA 中 pi 进入 何 处 ， 让 这 个 
DFA 状 态 有 一 个 带 x 标 记 的 转移 ， 这 个 转移 进入 一 个 DFA 状 态 ， 这 个 状态 包含 gs 和 所 有 p, 在 符 
号 x 上 到 达 的 状态 。 在 从 任何 pi 出 发 都 没有 转移 的 符号 z 上 ， 让 这 个 DFA 状 态 有 一 个 在 xz 上 的 转 
移 ， 这 个 转移 进入 一 个 DFA 状 态 ， 这 个 状态 包含 和 在 NFA 中 顺 着 带 x 标 记 箭 弧 从 qo 到 达 的 所 
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有 状态 。 

例如 ， 考 虚 图 2-17 的 状态 135。 图 2-16 的 NFA 在 符号 bp 上 有 从 状态 3 和 状态 5 分 别 到 状态 4 和 状 
态 6 的 转移 。 因 此 ， 在 符号 bp 上 ，135 到 达 146,， 在 符号 ce 上，NFA 没 有 从 状态 3 或 状态 5 出 发 的 转移 ， 
但 有 从 状态 1 到 状态 5 的 转移 。 因 此 ， 在 DFA 中 ，135 在 输入 e 上 到 达 15。 同 样 ， 在 输入 w 上 ，135 
到 达 12。 

在 每 个 其 他 符号 x 上 ， 没 有 从 状态 3 或 状态 5 出 发 的 转移 ， 状 态 1 只 到 自身 。 因 此 ， 在 除 b、e 
和 w 外 的 每 个 2 符号 上 有 从 135 到 1 的 转移 。 用 记号 一 b 一 。 — w 表 示 这 个 集合 ， 用 同样 记号 表 
ADK 删除 几 个 符号 的 其 他 集合 。 口 








2.4.4 习题 71 





习题 2.4.1 设计 识别 下 列 串 的 集合 的 NFA。 
*a) abc、abd 和 aacd， 假 设 字母 表 是 {a,b, c,d}。 
b) 0101、101 和 011。 

9 ab、bc 和 ca， 假 设 字母 表 是 {a,b, c}。 

习题 2.4.2 把 习题 2.4.1 的 每 个 NFA 转 化 成 DFA。 


25 带 e 转 移 的 有 穷 自 动机 


现在 介绍 有 穷 自动 机 的 另 一 种 扩展 。 新 “特征 ”是 苑 许 在 空 串 e 上 的 转移 。 实 际 上 ， 克 许 
NFA 没 有 收 到 输入 符号 就 自动 转移 。 与 2.3 节 引入 的 非 确定 性 一 样 ， 新 能 力 并 不 扩大 有 穷 自动 机 
接受 的 语言 类 ， 但 的 确 提供 了 一 些 额外 的 “程序 设计 便利 "。3.1 节 讨论 正则 表达 式 时 会 看 到 带 s 
转移 的 NFA 〈 称 为 eNFA) 与 正则 表达 式 有 多 么 密切 的 关系 ， 在 证 明 有 穷 自 动机 与 正则 表达 式 接 
受 的 语言 类 之 间 等 价 性 时 ， 它 又 多 么 有 用 。 


2.5.1 8 转移 的 用 途 


从 seNFA 的 非 形式 化 处 理 开始 ， 使 用 允许 = 作为 标记 的 转移 图 。 在 下 面 的 例子 中 ， 认 为 自动 
机 接受 从 初始 状态 到 接受 状态 路 径 的 标记 序列 。 但 沿 着 路 径 的 每 个 e 都 是 “不 可 见 的 "， 即 不 给 
沼 途 的 串 增加 任何 东西 。 


例 2.16 图 2-18 中 是 一 个 -NFA， 接 受 由 下 列 内 容 组 成 的 十 进 制 数 
1. 可 有 可 无 的 + 号 或 一 号 ， 
2, 数字 串 ， 
3. 小 数 点 ， 
4. 另 一 个 数字 串 。 这 个 数字 串 或 (2) 中 的 串 可 以 为 空 ， 但 这 两 个 数字 串 中 至 少 一 个 不 为 空 。 
特别 关注 在 e、+ 或 一 之 一 上 从 qu 到 9, 的 转移 。 因 此 ， 状 态 4 表示 这 样 的 局 面 ; 已 经 看 到 正 
负 号 (如 果 有 的 话 )， 并 且 可 能 看 到 一 些 看 到 数字 和 小 数 点 。 状 态 q; 表 示 这 样 的 局 面 : 已 经 看 
到 小 数 点 ， 可 能 看 到 或 没 看 到 之 前 的 数字 。 在 qs， 已 经 肯定 看 到 至 少 一 个 数字 ， 但 还 没有 看 
到 小 数 点 。 因 此 ， 状 态 9; 表 示 ， 已 经 看 到 小 数 点 及 其 之 前 或 之 后 至 少 一 个 数字 。 REMEE m2] 
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的 数字 时 ， 都 可 以 停留 在 状态 9 下， 也 可 以 选择 “猜测 ”数字 串 已 经 结束 ， 自 动 进入 接受 状 
Base 口 








图 2-18 接受 十 进 制 数 的 -NFA 


例 2.17 ”如 果 允 许 e 转 移 ， 就 可 以 简化 例 2.14 概 述 的 策略 ， 这 个 策略 用 来 构造 一 个 识别 关键 
字 集 合 的 NFA。 例 如 ， 图 2-16 所 示 识 别 关键 字 web 和 ebay 的 NFA， 也 可 以 用 转移 来 实现 ， 如 图 
2-19 所 示 。 一 般 情况 下 ， 为 每 个 关键 字 构 造 一 个 完整 的 状态 序列 ， 似 乎 这 是 自动 机 惟一 要 识别 
的 关键 字 。 然 后 ， 加 入 新 的 初始 状态 (图 2-19 中 的 状态 9)， 以 及 到 每 个 关键 字 自 动机 初始 状态 
的 e 转 移 。 o 





图 2-19 用 e 转 移 来 帮助 识别 关键 字 


2.5.2 eNFA 的 形式 化 定义 


完全 可 以 像 表 示 NFA 那 样 来 表示 sNEA， 只 有 一 处 例外 :转移 函数 必须 含有 在 = 上 转移 的 信 
息 。 形 式 化 地 ， 把 e-NFA 4 表示 成 4 = (Q, Z, 5, qo, F)， 其 中 除 6 外 ， 所 有 组 成 部 分 都 有 与 NFA 同 
样 的 解释 ，5 现 在 是 有 下 列 变量 的 函数 : 

1.0 中 一 个 状态 。 

2. 2U{} 中 一 个 元 素 ， 也 就 是 说 ， 要 么 是 输入 符号 ， 要 么 是 e 符 号 。 要 求 空 囊 符号 s 不 是 字 

母 表 2 中 的 元 素 ， 所 以 不 会 导致 混乱 。 


例 2.18 图 2-18 的 -NFA 形 式 化 表示 为 : 
E= ({qo, qi, ,qs}, {n+ ,—,0,1,.…,9},6, go, {49s}) 
其 中 6 用 图 2-20 的 转移 表 来 定义 。 o 
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je abiaj iii 
% | {a} | a} jo |ø 
aa |2 |ia} | {n} 
aja |Z |2 | {as} 
% || {s} |2 |2 | {as} 
ujo |2 {qs} | 2 





glo ls |e 
图 2-20 图 2-18 的 转移 表 


25.3 s 闭 包 


后 面 会 给 出 eNFA 扩 展 转移 函数 的 形式 化 定义 ， 这 个 定义 引出 这 些 自动 机 所 接受 的 串 和 语言 
的 定义 ， 最 终 允许 解释 为 什么 DFA 能 模拟 s-NFA。 但 首先 需要 学 习 一 个 中 心 定义 ， 称 为 状态 的 e 
闭 包 。 非 形式 化 地 ， 顺 着 所 有 从 状态 4 出 发 带 s 标 记 的 转移 来 求 状态 q 的 s 闭 包 。 但 当 顺 着 a 到 达 其 
他 状态 后 ， 再 顺 着 这 些 状态 发 出 的 转移 ， 依 此 类 推 ， 最 终 求 出 顺 着 箭 弧 都 带 标 记 的 任何 路 径 
从 4 可 达 的 每 个 状态 。 形 式 化 地 ， 递 归 地 定义 e 闭 包 ECLOSE(q) 如 下 : 

基础 ， 状 态 q 属 于 ECLOSE(gq)。 

归纳 ， 如 果 pP 属 于 ECLOSE(9)， 并 且 有 从 状态 p 到 状态 r 带 < 标记 的 转移 ， 则 r 属 于 ECLOSE(9)。 
更 准确 地 说 ， 如 果 5 是 所 讨论 的 eNFA 的 转移 函数 ， 且 p 属 于 ECLOSE(9)， 则 ECLOSE(9) 也 包含 所 
AMRF Op, 8 的 状态 。 


例 2.19 ”对 于 图 2-18 中 的 自动 机 ， 除 了 ECLOSE(qo) = {40,41} 和 ECLOSE(q;) = {q3, qs} 这 两 个 
例外 ， 其 余 每 个 状态 都 是 自身 的 闭 包 。 原 因 在 于 ， 只 有 两 个 转移 ， 一 个 把 4, 加 入 ECLOSE(qo)， 
另 一 个 把 qs 加 入 ECLOSE(q;)。 

图 2-21 给 出 更 复杂 的 例子 。 这 组 状态 可 能 是 某 个 e-NFA 的 一 部 分 ， 可 以 得 出 : 

ECLOSE(1) = {1,2, 3, 4,6} 
顺 着 只 带 s 标 记 的 路 径 从 状态 1 可 达 这 些 状 态 的 每 一 个 。 例 如 ， 路 径 1 一 2 一 3 一 6 到 达 状 态 6。 状 态 
?不 属于 ECLOSE(1)， 因 为 尽管 从 1 可 达 ， 但 路 径 必 须 使 用 不 带 e 标 记 的 箭 弧 4 一 5。 从 顺 着 有 非 e 
转移 的 路 径 1 一 4 一 5 一 6 从 状态 1 也 可 到 达 状 态 6， 这 个 事实 并 不 重要 。 存 在 一 条 路 径 全 带 s 标 记 ， 
这 就 是 以 证 明 状态 6 属于 ECLOSE(1)。 口 





图 2-21 一 些 状态 和 转移 


我 们 有 时 需要 对 状态 5 的 集合 计算 e 闭 包 。 办 法 是 取 每 个 状态 的 E 闭 包 的 并 集 ， 即 ECLOSE(S) 
四 
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25.4 ”se-NFA 的 扩展 转移 和 语言 


s 闭 包 人 允许 我 们 轻松 解释 当 给 定 ( 非 e) 输入 序列 时 ，s-NFA 的 转移 是 什么 。 从 这 个 解释 出 发 ， 
就 可 以 定义 e-NFA 接 受 它 的 输入 是 什么 意思 。 
(URE =(Q, X, ô, qo, F) 是 一 个 e-NFA。 首 先 定义 扩展 转移 函数 6 来 反映 在 输入 序列 上 发 生 什 
么 事情 。 意 图 是 ，6 (q, w) 是 顺 着 这 样 的 路 径 可 达 的 状态 集合 ， 当 把 该 路 径 的 标记 连接 起 来 时 ， 
就 形成 串 w。 与 往常 一 样 ， 这 条 路 径 沿途 的 s 对 形成 w 不 起 作用 。 ô 的 正确 递归 定义 是 : 
基础 ，6 (q, ©) = ECLOSE(9)。 也 就 是 说 ， 如 果 这 条 路 径 的 标记 是 s， 则 只 能 顺 着 从 状态 4 出 
发 带 e 标 记 的 箭 弧 ， 这 恰好 是 ECLOSE 所 做 的 。 
归纳 : 设 w 形 如 xa， 其 中 a 是 w 的 结尾 符号 。 注 意 ，a 属 于 3 oa 不 能 是 es，s 不 属于 3。 计算 6 
(q, mw) 如 下 : 
1. BSG. DAMP, po …, Pr}。 也 就 是 说 ， 这 些 pi 是 从 gq 顺 着 标记 为 x 的 路 径 可 达 的 所 有 状态 。 
这 条 路 径 可 能 以 一 个 或 多 个 带 e 标 记 的 转移 来 结尾 ， 也 可 能 有 其 他 的 6 转移 。 
ZUS (pi, a) 为 {i, 2,…, rm}。 也 就 是 说 ， 顺 着 带 x 标 记 的 路 径 从 gq 到 达 一 些 状态 ， 遵 特 
所 有 带 a 标 记 的 从 这 些 状 态 发 出 的 转移 。 这 些 r) 是 顺 着 带 w 标 记 的 路 径 从 g 可 达 的 一 些 状态 。 
顺 着 下 面 步骤 (3) 中 的 标记 的 箭 弧 ， 从 这 些 六 求 出 其 他 的 可 达 的 状态 。 
3. (q, w) = ECLOSE(n,)。 这 个 附加 的 闭 包 步 又 包含 了 所 有 从 g 出 发 带 w 标 记 的 路 径 ， 
考虑 到 了 在 最 后 的 “ 实 ”符号 o 上 转移 后 ， 存 在 其 他 带 e 标 记 的 箭 弧 可 以 遭 循 的 可 能 性 。 


例 2.20 对 于 图 2-18 的 eNFA， 计 算 5 (q, 5. 6)。 所 和 需 的 步骤 总 结 如 下 : 
» 6 (qo, £) = ECLOSE(qo) = {q0, 41} 6 
+ HS (qo, 5) 如 下 : 
1) 首先 计算 从 状态 qo 和 qi 发 出 的 在 输入 5 上 的 转移 、 在 上 面 6 (qo, e) 的 计算 中 得 到 go 和 qi。 
也 就 是 说 ，6 (qo, 5)US (qi, 5) = {q1, 94}。 
2) 然后 求 在 步 又 (1) 中 计算 出 的 集合 中 元 素 的 e 闭 包 。 得 到 ECLOSE(9g))UECLOSE(4) = 
{gDU{gs} = {q1,94}。 这 个 集合 就 是 5(qo, 5)。 对 于 后 面 两 个 符号 ， 重 复 这 两 步 模式 。 
* 计 算 5(q,5.) 如 下 : 
1) 首先 计算 5 (qi,.)U5 (qs,) = {qa}ULQs} = {q2, 5} 6 
2) 然后 计算 
5 qo, 5 -) = ECLOSE(q:) UECLOSE(qs) = {q2}U{qs, gs} = {42, 93, gj。 
“计算 5 (qo,5.6) 如 下 : 
1) 首先 计算 5 (qo, 6)US (qs, 6)U5 (qs, 6) = {qs}ULqs}UD = {qs}. 
2) 然后 计算 6 (qo, 5. 6) = ECLOSE(9) = {4q3, qs}。 o 


现在 用 预期 的 方式 来 定义 一 个 eNFA E=(Q, 2,6, qo, F) 的 语言 : LE) = {wl§ (qo, WNF Ø}. 
也 就 是 说 ，E 的 语言 是 把 初始 状态 引 向 至 少 一 个 接受 状态 的 串 w 的 集合 。 例 如 ,在 例 2;20 中 看 
Bl, 5 (qo, 5.6) 包 含 接受 状态 qs， 所 以 串 5.6 属 于 那个 e-NFA 的 语言 。 


Download at http://www.pinSi.com/ 


RAFAH 53 





2.5.5 消除 e 转 移 


给 定 一 个 e-NFA E， 可 以 求 出 一 个 与 E 接 受 相同 语言 的 DFA D。 使 用 的 构造 非常 接近 于 子 集 
构造 ， 因 为 D 的 状态 是 E 的 状态 的 子 集 合 。 惟 一 的 不 同 在 于 ， 必 须 处 理 E 的 8 转移 ， 通 过 e 闲 包机 
制 来 做 到 这 一 点 。 

设 E = (Qe, E, ôe, qo, Fe)。 则 等 价 的 DFA 

D=(Qb, F, ôv, qo, Fo) 
定义 如 下 : 

1. QO 是 Qs 的 子 集 的 集合 。 更 准确 地 说 ,我们 将 会 发 现 ，D 的 所 有 可 达 状 态 都 是 Qs Mel 
集 ， 也 就 是 说 ， 这 些 集合 5 C Qs 使 得 5 = ECLOSE(S)。 换 名 话说， 状态 5 的 e 闭 集 就 是 使 得 
从 5s 中 状态 之 一 出 发 的 任意 :转移 都 导向 还 是 属于 5 的 状态 的 集合 。 注 意 ， 儿 是 e 闭 集 。 

2. 6p= ECLOSE(qo)， 即 D 的 初始 状态 是 对 仅 由 E 的 初始 状态 构成 的 集合 求 闭 包 得 到 的 。 注 意 ， 
这 个 规则 和 原来 子 集 构造 有 所 不 同 。 在 子 集 构造 中 ， 所 构造 的 自动 机 的 初始 状态 仅 包含 
所 给 定 的 NFA 的 初始 状态 。 

3. Fo 是 包含 至 少 一 个 E 中 接受 状态 的 状态 集合 。 也 就 是 说 ，Fo= {515 属 于 Qo 且 SNFs# Ø). 

4. 对 于 所 有 属于 3 的 sa 和 属于 Co 的 集合 9， 计 算 io(S, aq) 的 方法 如 下 : 

(8) iS = {pr Par pr}。 
O HRUG 6 (po,a)， 设 这 个 集合 是 {ri, r2 s Tmhe 
(©) 则 6o(S,a) = 7, BCLOSE(r;), 

例 2.21 ”消除 图 2-18 中 e-NFA 的 s 转 移 、 下 面 把 这 个 a-NFA 称 为 E。 从 E 构 造 一 个 DFA D， 如 

图 2-22 所 示 。 但 为 了 避免 杂乱 无 章 ， 从 图 2-22 省 略 了 死 状 态 玫 以 及 所 有 到 这 个 死 状 态 的 转移 。 


应 当 想像 ， 对 于 图 2-22 中 所 示 的 每 个 状态 ， 字 母 表 上 的 任意 一 个 输入 都 还 有 到 的 其 他 转移 ， 
只 是 这 个 转移 未 标识 出 来 而 已 。 而 且 ， 状 态 儿 在 所 有 输入 符号 上 都 有 到 自身 的 转移 。 


SEA O19 





0,1,79 
图 2-22 DFA D 消 除了 图 2-18 中 的 e 转 移 


由 于 E 的 初始 状态 是 9o。，D 的 初始 状态 就 是 ECLOSE(qo)， 即 {go, q!}。 第 一 项 工作 是 求 出 qo 和 gq 
在 各 种 属于 的 符号 上 的 后 继 状 态 ， 注意 这 些 符号 是 加 碱 号 、 小 数 点 和 从 0 到 9 的 数字 。 在 + 和 一 
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上 ，4! 在 图 2-18 中 无 处 可 去 ， 而 进入 g,。 因 此 ， 为 了 计算 io(fq,9gi},+)， 从 {gj} 开 始 求 e 闲 包 。 由 
FRAN GHEE, BA Sr ({qo, qh, +) = {qi}. FIPE, 80 ({qo, 91}. 一) = {q1}。 这 两 个 转移 在 
图 2-22 中 显示 成 一 个 箭 弧 。 

然后 需要 计算 io ({qo, 41},.)。 由 于 在 图 2-18 中 ，go 在 小 数 点 上 无 处 可 去 ，qi 进 入 gs， 所 以 必 
须 求 {9?} 的 se 闭 包 。 由 于 没有 从 4; 发 出 的 e 转 移 ， 这 个 状态 就 是 自身 的 闵 包 ， 所 以 此 io (ao q1},.) = 
{q2}。 

最 后 必须 计算 6p({qo, q), 0)， 作 为 从 {qo, q'} 在 所 有 数字 上 发 出 转移 的 例子 。 发 现 qo 在 数字 上 
无 处 可 去 ， 而 9, 进入 4 和 4:。 由 于 这 两 个 状态 都 没有 发 出 e 转 移 ， 就 得 出 5o ({go, gi}, 0) = {qn gj。 
对 于 其 他 数字 是 类 似 的 。 

现在 已 经 解释 了 图 2-22 中 {qo, 9!} 发 出 的 箭 弧 ， 同 样 地 计算 其 他 的 转移 ， 留 给 读者 来 验证 这 
些 计算 。 由 于 gs 是 E 的 惟一 接受 状态 ，D 的 接受 状态 就 是 那些 包含 qs 的 可 达 状态 。 在 图 2-22 中 看 
到 用 双 圆圈 表示 这 两 个 集合 {qs, qs} 和 {gq2, qs, qs}。 口 


定理 2.22 一 个 语言 L 被 某 个 e-NFA 接 受 ， 当 且 仅 当 L 被 某 个 DFA 接 受 。 

证 明 (4) 这 个 方向 是 容易 的 。 设 对 于 某 个 DFA D, L = L(D)。 对 D 的 所 有 状态 q 都 增加 转 
Hq, 6) = 儿 ， 把 Dp 转化 为 一 个 e-NFA E。 从 技术 上 说 ， 还 必须 把 D 在 输入 符号 上 的 转移 (如 5b (q， 
a) =p) 转化 为 到 只 包含 p 的 集合 的 NFA 转 移 ， 也 就 是 6 (q, a) = {p}。 因 此 ，E 和 D 的 转移 是 一 样 
的 ， 但 E 明 确 表达 了 在 e 上 从 任何 状态 都 没有 转移 。 

( 仅 当 ) 设 E= (Qs, E, ôe, qo, Fe) 是 一 个 -NFA。 应 用 上 述 修改 的 子 集 构造 来 产生 一 个 DFA 

D=(Qo, X, 5p, qo, Fo) 
需要 证 明 L(D) = LE)， 通 过 证 明 E 和 D 的 扩展 转移 函数 相同 来 做 到 这 一 点 。 形 式 化 地 ， 对 w 的 长 
度 用 归纳 法 来 证 明 6 £ (qo, w) = Ô n (qo, Ww)。 

基础 :如 果 Iwl =0， 则 w= se。 知道 6 (qo, €) =ECLOSE(qo)。 还 知道 gp=ECLOSE(qo)， 因 为 这 
是 D 的 初始 状态 的 定义 。 最 后 ， 对 于 一 个 DFA， 知 道 对 于 任意 状态 p 有 5 (p, sj = p， 所 以 特别 
是 ，6b(qo, £) = ECLOSE(qo)。 因 此 证 明了 6 (go, £) = 6 o (qo, €). 

归纳 : 设 w = xa， 其 中 a 是 w 的 结尾 符号 ,假设 这 个 命题 对 于 x 成 立 。 也 就 是 说 ，6 (qo, x) = 
6o(go,a)。 设 这 两 个 状态 集 都 是 tp,Pz, Di} 

根据 对 于 eNFA 的 6 的 定义 ， 计 算 和 se(go, mw) 的 方法 如 下 ; 

LAR, ra +5 rm HEU i dei a). 

2. Il 5 £ (go, w) =|), ECLOSE(r)), 

如 果 检查 上 述 修改 的 子 集 构造 中 的 DFA D 的 构造 ， 就 看 到 6 ({p1, pa = pi), aq) 同样 是 用 上 述 
的 两 个 步骤 (0) 和 (2) 构 造 出 来 的 。 因 此 和 (go, w) (Map, pa =p), a)) EFE w). IE 
证 明了 6 (qo,w) = $b(qo,w)， 完 成 了 归纳 部 分 。 a 


25.6 习题 
* 习题 2.5.1 考虑 下 列 s-NFA: 
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E a b £ 
>p || 2 {p) q. T. 
a || {p} | {9} | fr} |2 
ar {a | tr} | 2 |i 
a) 计算 每 个 状态 的 闭 包 。 
b) 给 出 这 个 自动 机 接受 的 所 有 长 度 小 于 或 等 于 3 的 串 。 
c) 把 这 个 自动 机 转换 为 DFA。 
习题 2.5.2 对 下 列 e-NFA 重 复习 题 2.5.1: 


€ a b c 

>p || r} [a] {r 

qa || 2 dp} | {r} | {p,a} 

ar || Ø Ø Ø Ø 

习题 2.5.3 为 下 列 语言 设计 s-NFA。 尝 试用 e 转 移 来 简化 你 的 设计 。 

a) 包含 零 个 或 多 个 4a， 后 面 跟着 零 个 或 多 个 b»， 再 跟着 零 个 或 多 个 c 的 串 的 集合 。 
1b) 包含 着 01 重 复 一 次 或 多 次 或 010 重 复 一 次 或 多 次 的 串 的 集合 。 
1c) 使 得 最 后 10 个 位 置 上 至 少 有 一 个 是 1 的 0 和 1 的 串 的 集合 。 


2.6 小 结 


“* 确 定型 有 穷 自动 机 : DFA 具 有 有 穷 的 状态 集合 和 有 穷 的 输入 符号 集合 。 指 定 一 个 状态 为 初 
始 状态 ， 指 定 零 个 或 多 个 状态 为 接受 状态 。 转 移 函 数 确定 每 次 处 理 一 个 输入 符号 时 状态 如 
何 改变 。 

。 转 移 图 : 用 图 来 表示 自动 机 是 方便 的 ， 图 中 的 顶点 是 状态 ， 用 输入 符号 来 标记 稍 弧 ， 表 示 
这 个 自动 机 的 转移 。 用 一 个 箭头 表示 初始 状态 ， 用 双 圆 圈 表 示 接 受 状态 。 

。 自 动机 的 语言 : 自动 机 接受 一 些 串 。 如 果 从 初始 状态 开始 ， 由 逐个 处 理 一 个 串 中 的 符号 引 
起 的 转移 导向 接受 状态 ， 则 接受 这 个 串 。 就 转移 图 而 言 ， 如 果 一 个 串 是 从 初始 状态 到 某 个 
接受 状态 的 路 径 上 的 标记 ， 则 接受 这 个 串 。 

* 非 确定 型 有 穷 自动 机 : NFA 与 DFA 的 不 同 在 于 ， 在 给 定 输入 符号 上 从 给 定 状态 出 发 ，NFA 
可 有 任意 多 个 (包括 0 个 ) 转移 到 达 下 一 个 状态 。 

。 子 集 构造 ， 把 NFA 状 态 的 各 种 集合 当 作 DFA 的 状态 ， 就 有 可 能 把 任何 NFA 转 化 为 接受 相同 
语言 的 DFA。 

cetti: 通过 允许 在 空 输入 ( 即 根本 没有 输入 符号 ) 上 转移 可 以 扩展 NFA。 这 些 扩展 的 
NFA 可 以 转化 为 接受 相同 语言 的 DFA。 

。 文 本 搜索 应 用 : 非 确 定型 有 穷 自动 机 是 表示 模式 匹配 器 的 有 用 方式 ， 模 式 匹配 器 扫描 大 量 
文本 来 搜索 一 个 或 多 个 关键 字 。 直 接 用 软件 来 模拟 这 些 自动 机 ， 或 者 先 转化 为 DFA 再 模拟 。 


2.7 参考 文献 
一 般 认为 ， 对 有 穷 状态 系统 的 形式 化 研究 起 源 于 [2]。 但 这 篇 文章 是 基于 “神经 网 络 ”的 计 
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算 模型 ， 而 不 是 现在 我 们 所 知道 的 有 穷 自动 机 。 常 规 的 DFA 是 以 几 种 类 似 变 种 的 形式 由 [1]、[3] 
和 [4] 独 立 提出 的 。 非 确定 型 有 穷 自动 机 和 子 集 构造 出 自 [5]。 
1. D. A. Huffman, “The synthesis of sequential switching circuits,” J. Frank- 
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第 3 章 正则 表达 式 与 正则 语言 


本 章 从 介绍 所 谓 的 “正则 表达 式 ” 记 号 开始 。 这 些 表达 式 是 另 一 种 类 型 的 语言 定义 记号 ， 
在 1.1.2 节 简单 地 举 过 例子 。 正 则 表达 式 也 可 看 作 是 一 种 “程序 设计 语言 "， 用 来 表示 某 些 重要 的 
应 用 ， 比 如 文本 搜索 应 用 或 编译 器 部 件 。 正 则 表达 式 与 非 确定 型 有 穷 自动 机 有 密切 关系 ， 可 看 
作 是 描述 软件 部 件 的 NFA 记 号 的 一 种 “用 户 友好 的 ”同类 记号 。 

本 章 在 定义 正则 表达 式 之 后 ， 证 明了 正则 表达 式 能 定义 所 有 正则 语言 ， 而 且 只 能 定义 正则 
语言 。 讨 论 正则 表达 式 在 几 种 软件 系统 中 的 使 用 方式 。 然 后 检查 了 正则 表达 式 适用 的 代数 定律 。 
这 些 定律 与 算术 代数 定律 极其 相似 ， 但 在 正则 表达 式 代数 与 算术 表达 式 代数 之 间 也 存在 某 些 重 
要 区 别 。 


3.1 正则 表达 式 


现在 把 注意 力 从 类 似 机 器 的 语言 描述 (确定 型 和 非 确定 型 有 穷 自动 机 ) 转移 到 代数 描述 
“正则 表达 式 "。 我 们 将 会 发 现 ， 正 则 表达 式 恰好 定义 了 与 各 种 形式 的 自动 机 所 描述 的 相同 的 语 
言 : 正则 语言 。 但 正则 表达 式 提供 了 自动 机 所 没有 的 东西 ;一 种 表达 要 接受 的 串 的 声明 方式 。 
因此 ， 正 则 表达 式 可 作为 许多 串 处 理 系统 的 输入 语言 。 例 子 包括 : 
1 .搜索 命 令 ， 比 如 UNIX 的 grep 或 等 价 的 串 查找 价 命令 ， 这 些 命令 可 以 在 Web 浏 览 器 或 文本 格 
式 的 系统 中 见 到 。 这 些 系统 用 类 似 于 正则 表达 式 的 记号 来 描述 用 户 要 在 文件 中 查找 的 模式 。 
不 同 的 搜索 系统 把 正则 表达 式 转换 成 DFA 或 NFA， 并 在 所 搜索 的 文件 上 模拟 这 个 自动 机 。 
2. 词法 分 析 器 生成 器 ， 比 如 Lex 和 Flex。 回 忆 一 下 ， 词 法 分 析 器 是 编译 器 部 件 ， 它 把 源 程序 
分 解 成 同等 重要 的 一 个 或 多 个 字符 的 逻辑 单元 ， 称 为 记号 (token) 。 记 号 的 例子 包括 关键 
F (如 while)、 标 识 符 ( 如 任何 字母 跟着 零 个 或 多 个 字母 或 数字 ) 以 及 符号 (比如 + 
或 <=)。 词 法 分 析 器 生成 器 接受 本 质 上 是 正则 表达 式 的 记号 形式 的 描述 ， 产 生 一 个 DFA， 
识别 哪个 记号 在 输入 中 下 一 个 出 现 。 


3.1.1 正则 表达 式 运算 符 


正则 表达 式 表示 语言 。 一 个 简单 例子 是 ， 正 则 表达 式 01"+10" 表示 包含 所 有 下 面 这 种 串 的 语 
言 : 单个 0 后 面 跟着 任意 多 个 1 或 者 单个 1 后 面 跟着 任意 多 个 0 的 串 。 并 不 期 待 读者 现在 就 知道 如 
何 解释 正则 表达 式 ， 所 以 读者 暂时 要 相信 关于 这 个 表达 式 的 语言 的 命题 。 后 面 很 快 就 会 定义 这 
个 表达 式 中 用 到 的 所 有 符号 ， 那 时 读者 就 会 明白 为 什么 对 这 个 正则 表达 式 的 解释 是 正确 的 。 在 
描述 正则 表达 式 记 号 之 前 ， 需 要 学 习 正则 表达 式 运算 符 所 代表 的 三 种 语言 运算 。 这 些 运算 是 ， 

1. 两 个 语言 C 和 M 的 并 ， 记 作 LUM， 是 只 属于 或 只 属于 M， 或 者 同时 属于 二 者 的 串 的 集合 。 

例如 ， 如 果 L = {001, 10,111} 且 M = {e,001}， 则 LUM = {e, 10,001, 111}, 
2. 语 言 L 和 M 的 连接 是 以 下 形成 的 串 的 集合 : 取 L 中 任意 一 个 串 ， 与 M 中 任意 一 个 串 连 接 起 
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来 。 回 忆 一 下 ，1.5.2 节 定义 了 一 对 串 的 连接 ， 一 个 串 后 面 跟着 另 一 个 串 就 形成 了 连接 的 
结果 。 用 圆 点 或 根本 不 用 任何 运算 符 来 表示 两 个 语言 的 连接 ， 尽 管 连 接 运算 符 常 常 称 为 
“A”, Bilan, MIRL = {001, 10, 111} 且 M = {e, 001}， 则 ZL.M (LM) 是 {001, 10, 111, 
001001, 10001, 111001}。LM 中 前 三 串 是 把 [中 囊 与 连接 。 由 于 a 是 连接 运算 的 单位 元 ， 得 
出 的 串 就 与 中 的 串 一 样 。 但 是 ，LM 中 最 后 三 串 是 这 样 形成 的 ， 取 LL 中 每 个 申 ， 与 M 的 第 
二 个 串 001 连 接 。 例 如 ，L 的 10 与 M 的 001 给 出 LM 的 10001。 

.语言 [的 闭 包 (RE, REHNE) °, EL, RAAT HATER BHA. IAL 
取 任 意 多 个 串 ， 可 能 有 重复 ( 即 可 以 多 次 选 同 一 个 种)， 把 所 有 这 些 串 连接 起 来 。 例 如 ， 
如 果 L = {0, 1}， 则 己 是 所 有 0 和 1 的 串 。 如 果 Z = {0,11}, ML 包含 使 得 1 成 对 出 现 的 0 和 1 
的 串 ， 如 011、11110 和 s， 但 01011 和 101 都 不 是 。 更 形式 化 地 说 ,，L' 是 无 穷 的 并 Ui>oL’'， 
其 中 心 = {a}，L'=L， 对 于 i> 1，L' 是 LL…L (i 个 [的 连接 )。 


例 3.1 ”由 于 语言 闲 包 的 想法 颇 有 些 技 巧 性 ， 所 以 研究 几 个 例子 。 首 先 ， 设 L = {0,11}, L= 
{6}， 这 与 语言 L 是 什么 无 关 ， 零 次 告 表示 从 LL 中 选择 零 个 申 。L' = 工 ， 表 示 从 ZL 中 选择 一 个 串 。 
此 ,展开 式 中 前 两 项 给 出 {e,0, 11}。 

其 次 ， 考 虑 芒 。 从 L 中 取 两 个 串 ， 允 许 重复 ， 有 4 种 选择 。 这 4 种 选择 给 出 L?= {00, 011, 110, 
1111}。 类 似 地 ,， 世 表示 对 L 中 两 个 串 选择 三 次 所 形成 的 串 的 集合 ， 这 给 出 : 

{000, 0011, 0110, 1100, 01111, 11011, 11110, 111111} 


为 了 计算 L"， 要 对 每 个 ?计算 L， 取 所 有 这 些 语言 的 并 。L' 至 多 有 2' 个 元 素 。 虽 然 每 个 Li 是 有 穷 的 ， 
但 无 穷 多 项 上 的 并 一 般 是 个 无 穷 语言 ， 在 这 个 例子 中 就 是 这 样 。 

现在 设 Z 是 所 有 0 的 串 的 集合 。 注 意 ，Z 是 无 穷 的 ， 这 与 前 面 例子 中 不 一 样 ， 在 前 面 例子 中 
是 有 穷 的 。 但 是 不 难 发 现 已 是 什么 。 刀 = {e}， 总 是 如 此 。L'= L。 忆 是 用 以 下 方式 形成 的 串 的 集 
A: 取 一 个 0 的 串 ， 与 另 一 个 0 的 串 连接 。 结 果 还 是 一 个 0 的 串 。 事 实 上 ， 每 个 0 的 串 都 可 写成 两 
个 0 的 串 的 连接 〈 不 要 忘 了 ，s 也 是 “0 的 串 ”， 这 个 串 总 可 以 作为 所 连接 的 两 个 串 之 一 )。 因 此 ， 
如 = 上。 同样 局 = L， 依 此 类 推 。 因 此 ， 在 语言 L 是 所 有 0 的 串 的 集合 的 特定 情形 下 ,无穷 的 并 L* = 
ZULIULU… 就 是 L。 

最 后 一 个 例子 是 "= {8}, EMO = { 导 ， 但 对 任意 ;> 1， 作 是 空 集合 ， 因 为 不 能 从 空 集中 
选 出 任何 的 串 。 事 实 上 ， 纪 是 其 闲 包 不 是 无 穷 的 公有 的 两 个 语言 之 一 。 口 


w 





星 运算 符 的 用 法 


在 1.5.2 节 首次 看 到 星 运算 符 ， 在 那里 ， 把 星 运算 符 应 用 到 一 个 字母 表 上 ， 即 3。 这 个 
运算 符 形成 了 所 有 从 字母 表 Z 来 选择 符号 的 串 。 闭 包 运 算 符 本 质 上 是 一 样 的 ， 但 在 类 型 上 
MAKA. 

假设 2 是 包含 长 度 为 1 的 串 的 语言 ， 而 且 对 DHEAS, Lpi Ra FELN S 
“看 上 去 ”一 样 ， 但 二 者 具有 不 同 的 类 型 是 串 的 集合 ， 是 符号 的 集合 。 另 一 方面 ，L* 
与 表示 相同 的 语言 。 











O 术语 “ 克 林 闭 包 ” 中 的 “ 克 林 ” 是 指 S . C- 克 林 ， 他 提出 了 正则 表达 式 记号 和 这 个 运算 符 。 
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3.1.2 构造 正则 表达 式 


所 有 类 型 的 代数 都 从 一 些 基本 表达 式 开始 ， 通 常 是 常量 和 (或) 变量 。 然 后 代数 把 一 组 特 
定 的 运算 符 应 用 到 这 些 基本 表达 式 上， 并且 应 用 到 前 面 构造 的 表达 式 上， 就 允许 构造 出 更 多 的 
表达 式 。 通 常 ， 也 需要 某 种 方法 来 对 运算 符 及 运算 对 象 进行 分 组 .。 例 如， 熟悉 的 算术 代数 从 整 
数 和 实数 这 样 的 常量 开始 ， 加 上 变量 ， 用 + 和 x 这 样 的 算术 运算 符 来 构造 更 复杂 的 表达 式 。 
正则 表达 式 代数 也 遵循 这 个 模式 ， 使 用 表示 语言 的 常量 和 变量 ， 以 及 3.1.1 节 中 的 三 种 运算 : 
并 、 点 和 星 。 正 则 表达 式 递 归 地 描述 如 下 。 在 这 个 定义 中 ， 不 仅 描述 了 什么 是 合法 的 正则 表达 
式 ， 还 对 每 个 正则 表达 式 E， 描 述 了 E 所 代表 的 语言 ， 记 作 LE)。 
基础 ， 基 础 包括 三 个 部 分 : 
1. 常量 se 和 必 是 正则 表达 式 ， 分 别 表示 语言 {se} 和 必 。 也 就 是 说 ,Le) ={e}HL() =O, 
2. 若 a 是 任意 符号 ， 则 a 是 正则 表达 式 。 这 个 表达 式 表示 语言 {a}。 也 就 是 说 ，L(a) = {a}。 注 
意 ， 用 黑体 字 表 示 一 个 符号 所 对 应 的 表达 式 。 这 种 对 应 关系 应 当 是 明显 的 ， 如 a 指 的 是 a。 
3. 变量 ， 通 常用 大 写 斜 体 符号 表示 ， 如 L。 它 代表 任意 语言 。 
归纳 : 归纳 步骤 有 四 个 部 分 ， 三 种 运算 符 各 自 对 应 一 个 部 分 ， 括 号 的 引入 对 应 一 个 部 分 。 
1. 如 果 E 和 F 都 是 正则 表达 式 ， 则 E+ F 是 正则 表达 式 ， 表 示 LE) 和 LF) 的 并 。 也 就 是 说 ，L(E + 
F)=L(E)UL(F), 
2. 如 果 E 和 F 都 是 正则 表达 式 ， 则 EF 是 正则 表达 式 ， 表 示 L(E) 和 L(F) 的 连接 。 也 就 是 说 ， 
LEF) = LE)LF)。 注 意 ， 可 以 任意 地 用 点 来 表示 连接 运算 符 ， 既 作为 语言 上 的 运算 ， 也 
作为 正则 表达 式 上 的 运算 符 。 例 如 ，0.1 是 正则 表达 式 ， 与 01 的 意思 一 样 ， 表 示 语 言 {01}。 
但 是 在 正则 表达 式 中 避免 用 点 作为 连接 ” 。 
3. 如 果 E 是 正则 表达 式 ， 则 是 正则 表达 式 ， 表 示 LE) 的 闭 包 。 也 就 是 说 ，L(E”) = (L(E))*。 
4. 如 果 E 是 正则 表达 式 ， 则 (E) ( 带 括号 的 E) 也 是 正则 表达 式 ， 与 E 表 示 相同 的 语言 。 形 式 
feib, LE) = LE), 





表达 式 及 其 语言 
严格 地 说 ， 一 个 正则 表达 式 E 只 是 一 个 表达 式 ， 而 不 是 一 个 语言 。 当 要 引用 E 所 表示 的 
语言 时 ， 应 当 使 用 L(E)。 但 当 其 实 想 说 “L(E)” 时 ， 用 说 “E” 来 表示 “L(E)”， 这 是 一 种 
常见 的 用 法 。 只 要 能 分 清楚 正在 谈论 语言 而 不 是 谈论 正则 表达 式 ， 就 采用 这 个 约定 。 








例 3.2 。” 写 一 个 正则 表达 式 ， 表 示 包 含 了 交替 的 0 和 1 的 串 的 集合 。 首 先 ， 构 造 一 个 正则 表达 
式 ， 表 示 包 含 单个 串 01 的 语言 。 然 后 用 星 运算 符 得 到 一 个 表达 式 ， 表 示 所 有 形 如 0101…01 的 串 。 
正则 表达 式 的 基础 规则 说 明 ，0 和 1 分 别 是 表示 语言 {0} 和 {1} 的 表达 式 。 如 果 把 这 两 个 表达 
式 连接 起 来 ， 就 得 到 了 表示 语言 {01} 的 正则 表达 式 ， 这 个 表达 式 是 01。 一 般 规则 是 ， 如 果 需 要 
一 个 正则 表达 式 表示 只 包含 串 w 的 语言 ， 就 用 w 本 身 作为 正则 表达 式 。 注 意 ， 在 正则 表达 式 中 ， 


O 事实 上 ，UNIX 正 则 表达 式 把 点 用 于 完全 不 同 的 目的 ， 即 表示 任意 的 ASCII 字 符 。 
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通常 用 黑体 书写 w 中 的 符号 ， 但 改变 字体 只 是 为 了 帮助 区 分 表达 式 与 串 ， 不 应 当 认 为 这 有 什么 重 

现在 ,为 了 得 到 所 有 包含 01 的 零 次 或 多 次 出 现 的 囊 ， 我 们 使 用 正则 表达 式 (01)"。 注 意 ,， 先 
在 01 两 边 加 上 括号 ， 以 避免 与 表达 式 01 RAIA, OV 的 语言 是 所 有 包含 一 个 0 和 任意 多 个 1 的 
串 。 在 3.1.3 节 说 明 这 个 解释 的 理由 ， 简 单 地 说 ， 星 比 点 优先 级 更 高 ， 因 此 在 执行 任何 连接 之 前 
就 选择 星 的 运算 对 象 。 

但 是 ，L((01)") 不 完全 是 我 们 想 要 的 语言 。 这 个 语言 只 包含 那些 以 0 开头 、 以 1 结尾 、0 和 1 交 
替 出 现 的 串 。 还 需要 考虑 以 1 开头 并 且 (或 者 ) 以 0 结尾 的 可 能 性 。 一 种 方法 是 构造 另外 三 个 正 
则 表达 式 ， 处 理 另 外 三 种 可 能 性 。 也 就 是 说 ，(10)” 表 示 以 1 开头 并 且 以 0 结尾 的 交替 串 ，0(10)” 用 
来 表示 以 0 开头 和 结尾 的 串 ，101)” 用 来 表示 以 1 开头 和 结尾 的 串 。 完 整 的 正则 表达 式 是 

(01)*+ (10)" + 0(10)" + 1001) 

注意 ， 用 + 运算 符 来 取 这 四 个 语言 的 并 ， 这 四 个 语言 一 起 给 出 了 所 有 0 和 1 交替 的 串 。 

但 是 ， 还 有 另 一 种 方法 产生 一 个 看 上 去 很 不 相同 的 正则 表达 式 ， 在 某 种 程度 上 更 紧 竣 。 还 
是 从 表达 式 (01)" 开 始 。 如 果 在 左边 连接 上 表达 式 e +1, 就 能 在 开头 加 上 一 个 可 有 可 无 的 1。 同 样 ， 
用 表达 式 s+ 0 在 结尾 加 上 一 个 可 有 可 无 的 0。 例 如 ， 用 + 运算 符 的 定义 : 

Le + 1) = LEUL) = {e}U{1} = {e, 1} 
如 果 把 这 个 语言 与 任意 其 他 语言 [连接 起 来 ，e 选 择 就 给 出 上 中 所 有 的 种 ，1 选 择 就 对 Z 中 每 个 趾 w 
给 出 Iw。 因此 ， 交 圭 的 0 和 1 的 串 的 集合 的 另 一 个 表达 式 是 : 
(e+ D(OD'(e + 0) 


注意 ， 每 个 增加 的 表达 式 外 面 都 需要 括号 ， 以 确保 这 些 运算 正确 地 分 组 。 口 


3.1.3 正则 表达 式 运算 符 的 优先 级 


像 其 他 代数 一 样 ， 正 则 表达 式 运算 符 也 有 假设 的 “优先 级 ”顺序 ， 这 意味 着 ， 运 算 符 要 以 
特定 的 顺序 来 结合 运算 对 象 。 读 者 都 非常 熟悉 普通 算术 表达 式 的 优先 级 概念 。 例 如 ，xy + z 把 乘 
积 xy 分 组 在 求 和 之 前 ， 所 以 等 价 于 带 括号 的 表达 式 (xy) + z， 但 不 等 价 于 表达 式 x(y + z)。 同 样 ， 
在 算术 中 两 个 相同 运算 符 从 左边 开始 分 组 。 所 以 x 一 y 一 z 等 价 于 (x 一 ) 一 z， 而 不 等 价 于 x 一 (y 一 z)。 
下 面 是 正则 表达 式 运算 符 的 优先 级 顺序 : 
1. 星 运算 符 具有 最 高 优先 级 。 也 就 是 说 ， 星 运算 符 只 作用 到 左边 构成 合法 正则 表达 式 的 最 
短 符号 序列 。 

2. 下 一 个 优先 级 是 连接 即 “ 点 ”运算 符 。 把 所 有 星 与 运算 对 象 分 组 后 ， 再 把 连接 运算 符 与 
运算 对 象 分 组 。 也 就 是 说 ， 把 所 有 并 列 的 ( 相 邻 、 中 间 没有 运算 ) 表达 式 分 组 到 一 起 。 
由 于 连接 是 结合 的 运算 符 ， 对 连续 的 连接 以 什么 顺序 来 分 组 是 无 关 紧 要 的 ， 但 如 果 要 做 
选择 ， 就 应 当 从 左边 开始 分 组 。 例 如 ， 把 012 分 组 成 (01)2。 

3. 最 后 把 所 有 的 并 (+ 运算 符 ) 与 运算 对 象 分 组 。 由 于 并 也 是 结合 的 ， 对 连续 的 并 以 什么 顺 
序 来 分 组 也 是 无 关 紧 要 的 ， 但 应 当 假 设 从 左边 开始 分 组 。 
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当然 ， 有 时 不 希望 按照 运算 符 的 优先 级 所 要 求 的 那样 来 对 正则 表达 式 分 组 。 如 果 是 这 样 ， 
就 随意 用 括号 按照 所 选择 的 来 对 运算 对 象 分 组 。 另 外 ， 在 需要 分 组 的 运算 对 象 外 面 加 上 括号 ， 
这 永远 不 会 引起 任何 错误 ， 即 使 所 需要 的 分 组 是 优先 级 规则 所 蕴涵 的 也 是 如 此 。 


例 3.3 把 表达 式 01 + 1 分 组 为 (0(1")) + 1。 首 先 把 星 运 算 符 分 组 。 由 于 星 左边 紧 挨 着 的 符号 1 
是 个 合法 的 正则 表达 式 ， 单 独 这 个 1 就 是 星 的 运算 对 象 。 其 次 把 0 和 (1) 之 间 的 连接 分 组 ， 给 出 表 
达 式 (0(1))。 最 后 并 运算 符 连 接 了 前 面 的 表达 式 和 右边 的 表达 式 1。 

注意 ,根据 优先 级 规则 分 组 ， 这 个 给 定 表达 式 的 语言 是 ， 串 1 加 上 所 有 包含 0 后 面 跟着 任意 
多 个 1 (包括 0 个 ) 的 串 。 如 果 选 择 在 星之 前 对 点 分 组 ， 就 应 当 使 用 括号 ， 如 (010) + 1。 这 个 表达 
式 的 语言 是 ， 串 1 加 上 所 有 把 01 重 复 零 次 或 多 次 的 串 。 如 果 希 望 首先 对 并 分 组 ， 就 应 当 在 并 的 外 
面 加 上 括号 ， 形 成 表达 式 0(1" + 1D)。 这 个 表达 式 的 语言 是 :以 0 开头 并 且 后 面 跟着 任意 多 个 1 的 串 
的 集合 。 o 


3.1.4 习题 


习题 3.1.1， 写 出 表示 下 列 语 言 的 正则 表达 式 ， 
* a) 字母 表 {a,b,c} 上 包含 至 少 一 个 a 和 至 少 一 个 b 的 串 的 集合 。 
b) 倒数 第 10 个 符号 是 1 的 0 和 1 的 串 的 集合 。 
0) 至 多 只 有 一 对 连续 1 的 0 和 1 的 串 的 集合 。 
! 习题 3.1.2 写 出 表示 下 列 语言 的 正则 表达 式 : 
a) 使 得 每 对 相 邻 的 0 都 出 现在 任何 一 对 相 邻 的 1 之 前 的 所 有 0 和 1 的 串 的 集合 。 
b) 0 的 个 数 被 5 整除 的 0 和 1 的 串 的 集合 。 
了 习题 3.1.3 写 出 表示 下 列 语言 的 正则 表达 式 : 
a) 不 包含 101 作 为 子 串 的 所 有 0 和 1 的 串 的 集合 。 
b) 具有 相同 个 数 的 0 和 1， 使 得 在 任何 前 级 中 ，0 的 个 数 不 比 1 的 个 数 多 2， 1 的 个 数 也 不 比 0 的 
个 数 多 2， 所 有 这 种 0 和 1 的 串 的 集合 。 
C) 0 的 个 数 被 5 整除 且 1 的 个 数 是 偶数 的 所 有 0 和 1 的 串 的 集合 。 
! 习题 3.1.4 给 出 下 列 正则 表达 式 语言 的 自然 语言 描述 ， 
* a) (1 + £)(00°1)'0", 
b) (0°1°)"000(0 + 1)", 
c(0+107T。 
* 习题 3.1.5 在 例 3.1 中 指出 ， 纪 是 其 闲 包 ， 它 是 有 穷 的 两 个 语言 之 一 。 另 一 个 语言 是 什么 ? 


3.2 有 穷 自动 机 和 正则 表达 式 


对 于 描述 语言 来 说 ， 正 则 表达 式 方法 与 有 穷 自 动机 方法 是 根本 不 同 的 ， 但 这 两 种 记号 竟然 
表示 完全 相同 的 语言 集合 ， 即 所 谓 的 “正则 语言 "。 已 经 证 明 ， 确定 型 有 穷 自 动机 和 两 种 非 确定 
型 有 穷 自动 机 (eB SRE) 接受 相同 的 语言 类 。 为 了 证 明正 则 表达 式 定义 了 相同 的 
类 ， 就 必须 证 明 ; 
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1. 用 这 些 自动 机 之 一 定义 的 每 个 语言 ， 也 可 以 用 正则 表达 式 来 定义 。 对 于 这 个 证 明 ， 可 以 
假设 某 个 DFA 接 受 这 个 语言 。 


2. 用 正则 表达 式 定义 的 每 个 语言 ， 也 可 以 用 这 些 自动 机 之 一 SNES、、C~MEA 全 
来 定义 。 对 于 这 部 分 证 明 ， 最 容易 的 是 证 明 有 一 个 带 转 
移 的 NFA 接 受 相同 的 语言 。 

C RE D= pra) 


图 3-1 显 示 已 经 证 明 或 将 要 证 明 的 所 有 等 价 性 。 从 类 X 到 类 7 的 箭 

屋 表 示 证 明了 用 类 X 定 义 的 每 个 语言 也 可 以 用 类 7 来 定义 。 由 于 这 图 3 证 明正 则 语言 四 种 不 
个 图 是 强 连通 的 即 从 四 个 顶点 中 每 个 都 能 到 达 任 何其 他 顶点 ) ，。。。 同 记号 等 价 性 的 计划 
可 看 出 所 有 四 个 类 其 实 都 是 相同 的 。 


3.2.1 从 DFA 到 正则 表达 式 


构造 正则 表达 式 来 定义 任意 DFA 的 语言 出 人 意料 地 富有 技巧 性 。 大 概 地 说 ， 构 造 出 描述 标记 
DEFA 转 移 图 中 特定 路 径 的 串 的 集合 的 表达 式 。 但 是 只 允许 这 些 路 径 经 过 一 个 有 限 的 状态 子 集合 。 在 
这 些 表达 式 的 归纳 定义 中 , 从 描述 不 允许 经 过 任何 状态 的 路 径 ( 即 这 些 路 径 是 单个 顶点 或 单条 箭 弧 ) 
的 最 简单 表达 式 开始 ， 然 后 归纳 地 构造 让 路 径 经 过 越 来 越 大 的 状态 集合 的 表达 式 。 最 后 允许 路 径 经 
过 任何 状态 ， 即 最 终 产生 的 表达 式 表示 所 有 可 能 的 路 径 。 这 些 想法 出 现在 下 面 定理 的 证 明 中 。 


定理 3.4 如 果 对 于 某 个 DFA A, L= LA)， 则 存在 一 个 正则 表达 式 R， 使 得 = L(R), 

证 明 ” 设 对 于 某 个 整数 "，A 的 状态 是 {1, 2…, n}。 无 论 4 的 状态 实际 是 什么 ， 对 于 某 个 有 穷 
的 nx， 都 会 有 n 个 状态 ， 通 过 为 这 些 状态 改名 ， 可 以 以 这 种 方式 来 引用 这 些 状态 ， 好 像 这 些 状态 
就 是 前 "个 正 整 数 。 第 一 项 也 是 最 困难 的 任务 是 构造 一 组 正则 表达 式 ， 来 描述 4 的 转移 图 中 越 来 
越 大 的 路 径 集合 。 

FAR) 作为 正则 表达 式 的 名 字 ， 这 些 表达 式 的 语言 是 下 列 串 w 的 集合 : 使 得 w 是 A 中 从 状态 i 
到 状态 /的 路 径 的 标记 ,而且 这 条 路 径 没 有 编号 大 于 k 的 中 间 顶 点 。 注 意 ， 路 径 的 起 点 和 终点 都 不 
是 “中 间 的 "， 所 以 不 限制 和 (或 ) 要 小 于 或 等 于 k。 

图 3-2 提 示 了 在 RW 所 表示 路 径 上 的 要 求 。 其 中 ， 垂 直方 向 表示 状态 ， 从 底下 的 1 到 项 上 的 
ny 水 平方 向 表示 沿 着 路 径 前 进 。 注 意 ， 在 这 个 图 中 显示 的 i 和 和 j 都 比 :大 ， 但 i 和 j 之 一 或 二 者 都 可 
能 是 k 或 更 小 。 还 要 注意 ， 这 条 路 径 两 次 经 过 顶点 :， 但 除 终点 外 ， 从 不 经 过 比 k 还 高 的 状态 。 


i 








图 3-2 带 有 属于 正则 表达 式 RY” 的 语言 的 标记 的 路 径 
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为 了 构造 表达 式 RY, HATE, Wk = 0 开始 ， 最 终 到 达 k =n, 注意 ; Yk =n 
时 ， 在 所 表示 的 路 径 上 根本 没有 限制 ， 因 为 没有 状态 比 n 还 大 。 
基础 基础 是 k = 0。 由 于 所 有 状态 都 编号 为 1] 或 更 大 ， 路 径 上 的 限制 是 ; 路 径 必定 根本 没有 
中 间 状 态 。 只 有 两 种 路 径 满足 这 样 的 条 件 : 
1. 从 顶点 (状态) i 到 顶点 j 的 一 条 箭 弧 。 
2. 只 包含 某 个 顶点 的 长 度 为 0 的 路 径 。 
如 果 ; 坟 /， 则 只 有 情形 (1) 是 可 能 的 。 我 们 必须 检查 这 个 DEA.A， 并 寻找 这 些 输入 符号 a: 使 
得 在 符号 a 上 有 从 状态 ;到 状态 j 的 转移 。 
a) 如 果 没 有 这 样 的 符号 a， 则 R= 纪 。 
b) 如 果 恰 好 有 一 个 这 样 的 符号 a， 则 Ri =a, 
c) 如 果 有 符号 a1, a2,…,at， 都 标记 从 状态 ;到 状态 j 的 箭 弧 ， MWR =ai+az+… + a 
但 是 ， 如 果 i = j， 则 合法 路 径 就 是 长 度 为 0 的 路 径 和 所 有 从 ;到 自身 的 环 。 长 度 为 0 的 路 径 表 
示 成 正则 表达 式 e， 因 为 这 个 路 径 沿途 没有 符号 。 因 此 ， 把 e 加 入 上 面 (a) 到 (e) 所 设计 的 各 种 表达 
式 中 。 也 就 是 说 ， 在 情形 (a) 下 〈 没 有 符号 ac) ， 表 达 式 成 为 e， 在 情形 (b) 下 (一 个 符号 a)， 表 达 式 
成 为 e+ as 在 情形 (c) 下 (多 个 符号 )， 表 达 式 成 为 E+ a+ a+ + ay, 
归纳 : 假设 存在 从 i 到 |j 的 路 径 不 经 过 比 k 高 的 状态 。 有 两 种 可 能 的 情形 需要 考虑 
1. 这 条 路 径 根本 不 经 过 状态 k。 在 这 种 情形 下 ， 路 径 的 标记 属于 R AEE, 
2, 这 条 路 径 经 过 状态 k 至 少 一 次 。 于 是 把 路 径 分 成 几 段 ， 如 图 3-3 所 示 。 第 一 段 不 经 过 而 从 
状态 i 到 状态 ke， 最 后 一 段 不 经 过 k 而 从 k 到 j， 所 有 中 间 路 段 都 不 经 过 k 而 从 k 到 自身 注意 ， 
如 果 路 径 只 经 过 状态 k 一 次 ， 则 没有 “中 间 ” 段 ， 只 有 从 i 到 k 的 路 径 和 从 到 j 的 路 径 。 所 
有 这 种 路 径 的 标记 的 集合 表示 成 正则 表达 式 RE™(RS") Re*。 也 就 是 说 ， 第 一 个 表达 式 
表示 第 一 次 到 达 状 态 k 的 路 径 部 分 ， 第 二 个 则 表示 从 k 到 自身 零 次 、 一 次 或 多 次 的 部 分 ， 
第 三 个 表达 式 表示 最 后 一 次 离开 k 并 到 达 状 态 j 的 路 径 部 分 。 


OMON O VO WANO 
ria Se 
tt) OC tor 
BER BER HERS TM a 
图 3-3 fA ROETES ERER AL B 
把 上 面 两 种 路 径 的 表达 式 组 合 起 来 ， 得 到 表达 式 
Rm RE + RR Re 
表示 从 状态 ;到 状态 j 而 不 经 过 比 k 更 高 状态 的 所 有 路 径 的 标记 。 如 果 按 照 上 标 递 增 的 顺序 来 构造 
这 些 表达 式 ， 则 由 于 每 个 R" 只 依赖 于 上 标 更 小 的 表达 式 ， 所 有 的 表达 式 都 在 需要 时 已 经 构造 出 
来 了 。 
最 终 对 于 所 有 i 和 .jj， 都 得 到 R”。 可 以 假设 ， 状 态 1 是 初始 状态 ， 而 接受 状态 可 以 是 任意 
一 组 状态 。 自 动机 的 语言 的 正则 表达 式 ， 就 是 所 有 表达 式 RO ZA Ot), 使 得 状态 j 是 接受 
状态 。 口 
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例 3.5 ”把 图 3-4 的 DFA 转 换 为 正则 表达 式 。 这 个 DFA 接 受 所 有 至 少 有 一 个 0 的 串 。 要 明白 为 
什么 ， 注 意 这 个 自动 机 只 要 看 到 输入 0， 就 从 初始 状态 1 进入 接受 状态 2。 这 个 自动 机 然后 在 所 有 


输入 序列 上 都 停 在 状态 2。 
1 
Start PN 0 0,1 
O—--~@D 
图 3-4 接受 所 有 至 少 有 一 个 0 的 串 的 DEA 
下 面 是 定理 3.4 的 构造 中 的 基础 表达 式 。 





例如 ，Ri" 有 s 项 ， 因 为 初始 状态 和 终结 状态 是 相同 的 ， 即 状态 1。 Rv 有 项 1， 因 为 在 输入 1 上 有 
从 状态 1 到 状态 1 的 箭 弧 。 另 一 个 例子 是 ， RS' 是 0， 因 为 从 状态 1 到 状态 2 有 带 标记 0 的 箭 弧 。 RO 
没有 s 项 ， 因 为 初始 状态 和 终结 状态 是 不 同 的 。 第 三 个 例子 是 ， RS = 纪 ， 因 为 没有 从 状态 2 到 状 
ASI ASTI. 

现在 必须 做 归纳 部 分 ， 构 造 更 复杂 的 表达 式 ， 首 先 考虑 经 过 状态 1 的 路 径 ， 然 后 考虑 经 过 状 
态 1 和 2 的 路 径 ， 即 任意 路 径 。 表 达 式 RY 是 定理 3.4 归 纳 部 分 给 出 的 一 般 规则 的 实例 : 


RP = RP + RA(R) RY G-D 
图 3-5 中 的 表 首 先 给 出 直接 代入 上 面 公式 计算 出 的 表达 式 ， 然 后 给 出 化 简 的 表达 式 ， 用 专门 的 推 
理 就 可 以 证 明 ， 化 简 的 表达 式 与 更 复杂 的 表达 式 表示 相同 的 语言 。 
| 通过 直接 代 人 | 经 过 化 简 
Rip e+1+(e+1)(e+1)*(e+1) | 1° 








RY) | 0+ (e+1)(e+1)°0 ro 
Ror Ø+Ø(e+1)*(e +1) ø 
Ry) | ©+0+1+4+0(+1)°0 +041 


图 3-5 只 经 过 状态 1 的 路 径 的 正则 表达 式 

例如 ， 考 虑 Ra 。 它 的 表达 式 是 R + RPCRYY RY, Hi = 1 和 j= 2 代入 式 (3-1) 就 得 到 这 个 表 
达 式 。 

为 了 理解 化 简 ， 注 意 一 般 原理 :如果 R 是 任意 正则 表达 式 ， 则 (e + RY = R"。 理 由 是 ， 等 式 两 
边 都 描述 了 包含 KR) 中 零 个 或 多 个 串 的 任意 连接 的 语言 。 在 这 个 例子 中 ， 有 (e+ 1"= 1, 注意 这 
两 个 表达 式 都 表示 任意 多 个 1。 另 外 ，(E+ DE= 芋 。 同 样 能 够 看 出 ， 这 两 个 表达 式 都 表示 “任意 
多 个 !"。 因 此 ， 原 来 的 表达 式 RY 等 价 于 0 + 0。 这 个 表达 式 表 示 包 含 0 和 和 所 有 在 0 前 面 有 任意 多 
个 1 的 串 的 语言 。 这 个 语言 也 可 以 表示 成 简单 的 表达 式 10。 

Ry 的 化 简 类 似 于 刚刚 考虑 的 R RER. RW 和 Rs 的 化 简 依 赖 于 两 条 关于 儿 如 何 运算 的 规则 。 
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对 于 任意 正则 表达 式 R: 
1.CR = RG = 纪 。 也 就 是 说 ， 纪 是 连接 运算 的 堆 元 (RLF) ， 无 论 纪 从 左边 还 是 右边 与 任 
意 表达 式 连 接 时 ， 结 果 都 是 纪 自 身 。 这 条 规则 是 正确 的 ， 因 为 要 让 一 个 串 属于 连接 的 结 
果 ， 就 必须 从 连接 运算 的 两 个 运算 对 象 中 找 出 串 。 RRR a RMR Os: 就 不 可 能 
从 这 个 运算 对 象 中 找 出 串 。 
2. 缚 +R=R+ 纪 =R。 也 就 是 说 ， 纪 是 并 的 单位 元 ， 只 要 弛 出 现在 并 运算 中 ， 结 果 就 是 另外 
那个 表达 式 。 
结果 就 是 ， 像 Ce+ "(e+ 了 这样 的 表达 式 可 以 换 成 @。 最 后 两 个 化 简 现在 应 当 是 清楚 的 了 。 
现在 计算 表达 式 Ri?。 对 于 k=2 应 用 归纳 规则 ， 给 出 : 
用 -有 GD 
如 果 把 图 3-5 的 化 简 表 达 式 代入 式 (3-2)， 就 得 到 图 3-6 的 表达 式 。 图 3-6 还 显示 遵循 图 3-5 描 述 的 同 
样 原理 的 化 简 。 


| 通过 直接 代入 | 经 过 化 简 
1°+1°0(e+0+1)°@® 

1°0 + 1°0(e+ 0+ 1)*(e+0+1) 1°0(0 +1)" 
A D+ (e+0+41)(e+0+1)°D Ø 
€+0+1+4+(e+0+1)(e+0+1)*(€+0+1) | (0+1) 


图 3-6 经 过 任意 状态 的 路 径 的 正则 表达 式 


构造 与 图 3-4 的 自动 机 等 价 的 最 终 正则 表达 式 的 方法 是 ， 取 所 有 第 一 个 状态 是 初始 状态 而 第 
二 个 状态 是 接受 状态 的 表达 式 的 并 。 在 这 个 例子 中 ，1 是 初始 状态 ，2 是 惟一 的 接受 状态 ， 只 需 
要 表达 式 Ra 。 这 个 表达 式 是 10(0 + 1)*。 很 容易 解释 这 个 表达 式 。 这 个 表达 式 的 语言 包含 以 零 
个 或 多 个 1 开头 ， 然 后 有 一 个 0， 然 后 是 0 和 和 1 的 任意 串 的 串 。 换 句 话说 ， 这 个 语言 是 至 少 有 一 个 0 
的 所 有 0 和 1 的 串 。 口 


3.2.2 通过 消除 状态 把 DFA 转 化 为 正则 表达 式 


3.2.1 节 把 DFA 转 化 为 正则 表达 式 的 方法 总 是 可 行 的 。 事 实 上 ， 读 者 可 能 已 经 注意 到 ， 这 个 
方法 并 不 真正 依赖 于 自动 机 是 确定 型 的 ， 同 样 可 能 应 用 到 NEA 甚 至 eNFA 上 。 但 正则 表达 式 构造 
代价 太 高 。 对 于 一 个 n 状 态 自 动机 ， 不 仅 要 构造 大 约 m! 个 表达 式 ， 而 且 如 果 不 化 简 表达 式 ， 则 在 
7 个 归纳 步 又 的 每 一 步 ， 表 达 式 的 长 度 平均 增加 到 4 倍 。 因 此 ， 这 些 表达 式 本 身 可 能 达到 4" 个 符 
号 的 长 度 级 别 。 

有 一 种 类 似 的 方法 ， 在 某 些 地 方 避 免 了 重复 工作 。 例 如 ， 在 定理 3.4 的 构造 中 ， 对 于 每 个 和 
J 所 有 带 上 标 k 的 表达 式 都 利用 同一 个 子 表达 式 (R ")”， 因 此 写 这 个 表达 式 的 工作 重复 了 产 次 。 

现在 要 学 习 的 构造 正则 表达 式 的 方法 涉及 消除 状态 。 当 消除 状态 :时 ， 自 动机 中 经 过 s 的 所 
有 路 径 都 不 存在 了 。 如 果 不 打算 改变 自动 机 的 语言 ， 就 必须 在 从 4 直接 到 p 的 稍 弧 上 上 包含 经 过 s 而 
从 状态 9 到 状态 p 的 路 径 的 标记 。 由 于 这 种 箭 弧 的 标记 现在 可 能 涉及 串 ， 而 不 是 单个 符号 ， 而 且 
甚至 可 能 有 无 穷 多 个 这 样 的 串 ， 所 以 不 能 简单 地 列举 这 些 个 串 作 为 标记 。 幸 运 的 是 ,有 一 种 简 
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单 且 有 穷 的 方法 来 表示 所 有 这 样 的 串 : 使 用 正则 表达 式 。 

因此 ， 结 果 是 考虑 用 正则 表达 式 作为 标记 的 自动 机 。 这 种 自动 机 的 语言 是 ， 把 所 有 从 初始 
状态 到 某 个 接受 状态 的 路 径 沿途 的 正则 表达 式 连接 起 来 形成 的 语言 的 并 。 注 意 ， 这 条 规则 与 目 
前 考虑 过 的 任何 变种 自动 机 的 语言 的 定义 都 是 一 致 的 。 每 个 符号 a 或 e (车 允许 ) 都 可 看 作 正则 
表达 式 ， 其 语言 就 是 单个 串 {q} 或 {ej。 把 这 个 事实 作为 下 一 步 描 述 的 状态 消除 过 程 的 基础 。 

图 3-7 显 示 一 个 将 被 消除 的 一 般 状 态 *。 假 设 * 所 属 的 自动 机 以 9%, qa ge 作为 的 前 驱 状态 ， 
以 pi, Pos …, pm 作为 * 的 后 继 状 态 。 有 可 能 某 些 4 和 p 是 相同 的 ， 但 是 假设 : 即使 有 从 5 到 其 自身 的 
环 ，* 也 不 出 现在 这 些 4 或 p 中 ， 如 图 3-7 所 示 。 在 每 个 从 一 个 9 到 s 的 箭 弧 上 ， 还 显示 了 一 个 正则 表 
达 式 ， 从 94: 出 发 的 箭 弧 用 表达 式 @, 标记 。 同 样 ， 对 所 有 的 ?， 显 示 了 标记 从 :到 的 箭 弧 的 正则 表 
达 式 Pi。 在 s 上 显示 了 带 标记 5 的 环 。 最 后 ， 对 所 有 的 i 和 j， 在 从 gi 到 py 的 箭 弧 上 有 正则 表达 式 Ry。 
注意 ， 这 些 箭 弧 中 有 一 些 可 能 在 这 个 自动 机 中 并 不 存在 ， 在 这 种 情况 下 ， 就 让 这 个 箭 弧 上 的 表 
RAS, 


Ry 





R 


kl 


图 3-7 一 个 将 被 消除 的 状态 > 


图 3-8 显 示 当 消除 状态 * 时 发 生 什么 。 删 除了 所 有 涉及 状态 s 的 箭 弧 。 作 为 补偿 ， 对 于 s 的 每 个 
前 驱 qi 以 及 每 个 后 继 p) ， 都 引入 一 个 正则 表达 式 ， 来 表示 所 有 从 4, 出 发 到 s、 可 能 绕 ; 循 环 零 次 或 
多 次 、 最 后 到 达 py 的 路 径 。 这 些 路 径 的 表达 式 是 0,S*P; 。 把 这 个 表达 式 (用 并 运算 ) 加 到 从 gi 到 
PATIL, AURA TMG 一 己 ， 就 先 引 入 一 个 这 种 箭 弧 ， 上 面 带 有 正则 表达 式 C。 

从 有 穷 自动 机 构造 正则 表达 式 的 策略 如 下 : 
1. 对 于 每 个 接受 状态 4， 应 用 上 面 的 消除 过 程 ， 产 生 一 个 等 价 的 自动 机 ， 箭 弧 上 带 有 正则 表 
达 式 标记 。 消 除 除了 g 和 初始 状态 qo 以 外 的 所 有 其 余 状 态 。 
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2. 如果 g 了 qo， 则 剩 下 一 个 两 状态 自动 机 ， 如 图 3-9 所 示 。 可 以 用 多 种 方式 来 描述 所 接受 的 串 
的 正则 表达 式 。 一 种 方式 是 (R + SUTSU. Refki pe 
下 ， 沿 着 标记 属于 LR) 或 LSU"7) 的 一 系列 路 径 ， 从 Myst Wh 
初始 状态 到 自身 任意 多 次 。 表 达 式 SU"7 表 示 这 样 的 
路 径 : 经 过 属于 L(S) 的 路 径 到 达 接受 状态 ， 可 能 用 
标记 属于 LU) 的 一 系列 路 径 多 次 回 到 接受 状态 ， 然 
后 用 标记 属于 L(7) 的 路 径 返 回 初始 状态 。 然 后 必须 
沿 着 标记 属于 LS) 的 路 径 ， 到 达 接受 状态 而 永 不 返 
回 初 始 状 态 。 一 旦 处 在 接受 状态 ， 沿 着 标记 属于 
LO 的 路 径 ， 就 可 以 随意 地 返回 接受 状态 任意 多 次 。 
.如 果 初 始 状态 也 是 接受 状态 ， 就 必须 对 原来 的 自动 
机 也 执行 状态 消除 ， 去 掉 除 初始 状态 以 外 的 所 有 其 Rim + Qk SP, 
余 状 态 。 这 样 做 了 之 后 ， 剩 下 一 个 单 状态 自动 机 ， ”图 3-8， 从 图 3.7 消 除 状态 ;的 结果 
如 图 3-10 所 示 ， 表 示 所 接受 的 串 的 正则 表 玉 式 是 R*。 








w 





R U 
Aos C) R 
的 -A 
eo 
图 3-9 一 般 的 两 状态 自动 机 图 3-10 一 般 的 单 状态 自动 机 
4, 所 求 的 正则 表达 式 是 对 每 个 接受 状态 用 规则 (2) 和 (3) 从 化 简 的 自动 机 得 出 的 所 有 表达 式 之 
和 (并 )。 


例 3.6 ”现在 考虑 图 3-11 中 的 NEA， 接 受 所 有 使 得 倒数 第 2 或 第 3 位 是 1 的 0 和 1 的 帅 。 第 一 步 是 
将 其 转化 为 带 正则 表达 式 标记 的 自动 机 。 由 于 没有 执行 状态 消除 ， 所 有 要 做 的 只 是 把 标记 “0, 1” 
换 成 等 价 的 正则 表达 式 0 + 1。 结 果 如 图 3-12 所 示 。 


s O) 1 0,1 -© 0,1 


图 3-11 接受 倒数 第 2 位 或 倒数 第 3 位 是 1 的 串 的 NFA 





0+1 


sa io 1 +©-*-©-"-© 


图 3-12 带 正则 表达 式 标记 的 图 3-11 的 自动 机 
首先 消除 状态 B。 由 于 这 个 状态 既 不 是 接受 状态 也 不 是 初始 状态 ， 所 以 这 个 状态 不 属于 任何 





和 
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化 简 的 自动 机 。 因 此 ， 如 果 在 构造 对 应 于 两 个 接受 状态 的 两 个 简化 自动 机 之 前 ， 先 消除 这 个 状 
态 ， 就 能 节省 工作 量 。 

状态 8 有 一 个 前 驱 4 和 一 个 后 继 C。 就 图 3-7 的 示意 图 中 的 正则 表达 式 而 言 , Q@'=1, Pi=0+1， 
Ri = 名 (因为 不 存在 从 4 到 C 的 箭 弧 )，8 = 多 (因为 在 状态 B 上 没有 环 )。 结 果 是 ， 在 从 A 到 C 的 新 
箭 弧 上 的 表达 式 为 + 1@*(0 + 1), 

为 简单 起 见 ， 首 先 消除 开头 的 @， 这 个 纪 在 并 运算 中 可 省 略 。 因 此 这 个 表达 式 成 为 HZ"(0+ 1)。 
注意 ， 正 则 表达 式 人 等 价 于 正则 表达 式 s， 因 为 

LD") = {e} U LØ) U UD UD YU 
由 于 除 第 一 项 外 所 有 其 余 项 都 为 空 ， 就 看 出 L(@") = {8}， 这 与 L(a) 相 等 。 Ak, 120 + 1 等 价 
于 1(0+J 了 ， 这 就 是 在 图 3-13 中 箭 弧 4 一 C 上 使 用 的 表达 式 。 
0+1 


Start {9 10+1) -©— 





图 3-13 消除 状态 B 
现在 必须 分 支 ， 在 不 同 的 化 简 过 程 中 消除 状态 C 和 D。 为 了 消除 状态 Cc， 采用 的 机 制 与 上 面 
消除 状态 8 的 机 制 类 似 ， 得 到 的 自动 机 如 图 3-14 所 fal 


不 。 
就 图 3-9 的 一 般 两 状态 自动 机 而 言 ， 从 图 3-14 得 Start D KO + D040 © 
出 的 正则 表达 式 是 : R=0+1, S=10 + 1) (0 + 1), 


T=ØRU=Ø, 表达 式 U 可 换 成 a8， 即 在 连接 中 被 。 ”图 3-14 带 状态 4 和 的 两 状态 自动 机 
消除 ， 理 由 是 "= e， 上 面 讨论 过 了 。 另 外 ， 表 达 式 SU"7 等 价 于 @， 因 为 连接 项 之 一 7 是 多。 因此 
在 这 种 情形 下 ， 一 般 表 达 式 (R+ SUTJ'SI 就 化 简 为 RS， 即 0+ D'10 + D(0 + 了 D。 非 形式 化 地 说 ， 
这 个 表达 式 的 语言 是 : 结尾 是 1 的 任意 串 后 面 跟着 两 个 符号 ， 要 么 是 0 要 么 是 1。 这 个 语言 是 图 
3-11 的 自动 机 所 接受 的 串 的 一 部 分 ， 即 倒数 第 三 位 是 1 的 那些 串 。 

现在 再 从 图 3-13 开 始 消除 状态 D， 而 不 是 消除 状态 C。 0+1 


由 于 D 没 有 后 继 状 态 ， 检 查 图 3-7 说 明 箭 弧 没 有 变化 ， 消 C) 
除了 从 C 到 的 稍 弧 以 及 状态 D。 得 到 的 两 状态 自动 机 如 。 Start (3 10 +1) © 
图 3-15 所 示 。 


这 个 自动 机 非常 类 似 于 图 3-14 的 自动 机 ， 只 有 从 初 ES 消除 得 到 的 两 状态 自动 机 
始 状态 到 接受 状态 的 箭 弧 上 的 标记 是 不 同 的 。 因 此 ， 可 以 应 用 两 状态 自动 机 的 规则 ， 化 简 表 达 
式 得 到 (0 + N10 + D)。 这 个 表达 式 表示 这 个 自动 机 接受 的 其 他 类 型 的 串 ， 倒 数 第 二 位 是 1 的 那 
wei, 
剩 下 来 的 只 是 求 两 个 表达 式 之 和 ， 以 得 到 图 3-11 的 整个 自动 机 的 表达 式 。 这 个 表达 式 是 
(0+ 1)°10 +1) + @+1)°10+1)0+1) 口 
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设 定 消除 状态 的 顺序 


在 例 3.6 中 看 到 ， 当 一 个 状态 既 不 是 初始 状态 也 不 是 接受 状态 时 ; 在 所 有 导出 的 自动 机 
中 它们 都 被 消除 了 。 因 此 ， 与 3.2.1 节 描述 的 正则 表达 式 的 机 械 生成 相 比 ， 状 态 消除 过 程 的 
优点 之 一 是 ， 可 以 首先 消除 既 不 是 初始 状态 也 不 是 接受 状态 的 所 有 状态 ， 一 劳 永 逸 。 只 有 
在 需要 消除 某 些 接受 状态 时 ， 才 需要 开始 重复 化 简 工作 。 

即使 这 样 ， 也 可 以 把 某 些 工作 组 合 起 来 。 例 如 ， 如 果 有 三 个 接受 状态 >、4 和 r， 就 可 以 
消除 p， 然 后 分 支 来 消除 4 或 "， 因 此 分 别 产生 接受 状态 rz 和 14 的 自动 机 。 然 后 再 从 所 有 三 个 接 
受 状态 开始 ， 消 除 94 和 r， 来 得 到 p 的 自动 机 。 








以 C 是 这 个 自动 机 的 语言 。 最 后 ，c) 部 分 给 出 了 正则 表达 式 a 对 应 


3.2.3 把 正则 表达 式 转化 为 自动 机 
现在 完成 图 3-1 中 的 计划 ， 证 明 : 每 一 个 对 于 某 个 正则 表达 式 R 来 说 是 L(R) 的 语言 L， 也 就 是 


对 于 某 个 e-NFA E 来 说 是 L(E)。 这 个 证 明 是 在 表达 式 R 上 的 结构 归纳 法 。 首 先 证 明 如 何 为 基础 表 


达 式 CMS. AMD) 构造 自动 机 。 然 后 证 明 如 何 把 这 些 自动 机 组 合成 更 大 的 自动 机 ， 来 接 
受 较 小 自动 机 接受 的 语言 的 并 、 连 接 或 闲 包 。 
构造 出 来 的 所 有 自动 机 都 是 具有 单个 接受 状态 的 a-NFA。 


定理 3.7 每 一 个 用 正则 表达 式 来 定义 的 语言 也 可 用 有 穷 自动 机 来 定义 。 
证 明 假设 对 于 正则 表达 式 R 来 说 , L= CR)。 证 明 对 于 某 个 eNFA EK, L= L(A), Hehe 


WE: 


1. 恰 有 一 个 接受 状态 。 
2. 没有 箭 弧 进入 初始 状态 。 
3. 没有 箭 纸 离 开 接受 状态 。 


这 个 证 明 采 用 R 上 的 结构 归纳 法 ， 遵 循 3.1.2 节 给 出 的 正则 表达 式 的 递归 定义 。 


基础 : 基础 有 三 个 部 分 ， 如 图 3-16 所 示 。 在 a) 部 分 中 ， 看 到 


如 何 处 理 表达 式 e。 容 易 看 出 这 个 自动 机 的 语言 是 {}。b) 部 分 说 mT 
明 对 应 于 纪 的 构造 。 显 然 没 有 从 初始 状态 到 接受 状态 的 路 径 ， 所 


a) 


的 自动 机 。 这 个 自动 机 的 语言 显然 包含 一 个 串 o， 这 也 是 Ia) 容 。 一 一、 
易 验 证 ， 这 些 自动 机 都 满足 归纳 假设 的 条 件 (D)、( 和 (3) THR © 
归纳 :归纳 的 三 个 部 分 如 图 3-17 所 示 。 假 设 对 于 给 定 正则 表达 5) 

式 的 直接 子 表达 式 定理 的 命题 者 成立 ; 也 就 是 说 ， 这 些 子 表达 式 

的 语言 也 是 一 些 具有 单个 接受 状态 的 eNEA 的 语言 。 四 种 情形 是 ， F 

1 对 于 某 些 较 小 的 表达 趟 R 和 s 来 说 ;表达 起 是 R+ S, FE [TO -© 
3-17a 的 自动 机 就 适用 。 也 就 是 说 ， 从 新 的 初始 状态 开始 ; A N 
HAMAR ELINA, EAA ae 18 anA Az 

















102) 
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始 状态 。 然 后 分 别 沿 着 由 某 个 属于 KR) 或 属于 区 5) 的 串 标记 的 路 径 ， 到 达 这 两 个 自动 机 之 
一 的 接受 状态 。 一 旦 到 达 R 或 5 的 自动 机 的 接受 状态 ， 就 沿 着 一 个 e 简 弧 到 达 新 自动 机 的 接 
受 状态 。 因 此 ， 图 3-17a 中 自动 机 的 语言 是 LR)UL(S)。 








c) 


图 3-17 EMRA e- NFA RHE PAA MR 
2. 对 于 某 些 较 小 的 表达 式 R 和 3 来 说 ， 表 达 式 是 RS。 连 接 运算 对 应 的 自动 机 如 图 3-17b 所 示 。 
注意 ， 第 一 个 自动 机 的 初始 状态 成 为 整个 自动 机 的 初始 状态 ， 第 二 个 自动 机 的 接受 状态 
成 为 整个 自动 机 的 接受 状态 。 想 法 是 ， 从 初始 状态 到 接受 状态 的 惟一 路 径 ， 首 先 经 过 R 的 
自动 机 ， 这 里 必须 沿 着 由 属于 L(R) 的 串 标 记 的 路 径 ， 然 后 经 过 5 的 自动 机 ， 这 里 沿 着 由 属 
于 L(S) 的 申 标 记 的 路 径 。 因 此 ， 图 3-17b 的 自动 机 中 的 路 径 是 所 有 并 且 只 有 由 属于 ZL(R)L(S) 
的 串 标记 的 路 径 。 
3. 对 于 某 个 较 小 的 表达 式 R 来 说 ， 表 达 式 是 R"。 于 是 使 用 图 3-17c 的 自动 机 .这 个 自动 机 
允许 : 
@) 沿 着 带 e 标 记 的 路 径 ， 直 接 从 初始 状态 到 达 接 受 状态 。 这 条 路 径 允 许 接受 B's 属 二 
L(R")， 无 论 表达 式 R 是 什么 。 
(b) 一 次 或 多 次 经 过 R 的 自动 机 ， 到 达 这 个 自动 机 的 初始 状态 ， 然 后 到 达 接 受 状态 。 这 组 
路 径 允许 接受 属于 L(R)、L(R)L(R)、L(R)LR)LR) 等 的 串 ， 因 此 覆盖 了 L(R”) 中 可 能 除 e 
以 外 的 所 有 的 串 ，(3a) 中 提 到 的 直接 到 达 接 受 状态 的 箭 弧 覆盖 了 e。 
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4 对 于 某 个 较 小 的 表达 式 R 来 说 ， 表 达 式 是 (R)。R 的 自动 机 也 适合 作为 (R) 的 自动 机 ， 因 为 
括号 不 改变 表达 式 所 定义 的 语言 。 


一 个 简单 的 事实 是 ， 所 构造 的 自动 机 满足 归纳 假设 中 给 定 的 三 natt 一 个 接受 状态 、 没 


有 进入 初始 状态 或 离开 接受 状态 的 箭 弧 。 口 


例 3.8 把 正则 表达 式 (0 + 1)"1(0 + 1) 转化 成 =NFA。 第 一 步 是 构造 0 + 1 的 自动 机 。 使 用 两 个 
根据 图 3-16c 构 造 的 自动 机 ， 一 个 在 箭 弧 上 带 标记 9， 另 一 个 带 标记 1。 然 后 用 图 3-17a 的 并 构造 把 
这 两 个 自动 机 组 合 起 来 。 结 果 如 图 3-18a 所 示 。 

下 一 步 ， 对 图 3-18a 应 用 图 3-17c 的 星 构造 。 这 个 自动 机 如 图 3-18b 所 示 。 最 后 两 步 涉及 应 用 
图 3-17b 的 连接 构造 。 首 先 ， 把 图 3-18b 的 自动 机 与 另 一 个 自动 机 连接 起 来 ， 把 另外 这 个 自动 机 设 
计 为 只 接受 串 1。 这 个 自动 机 是 图 3-16c 的 基础 构造 的 另 一 次 应 用 ， 在 箭 弧 上 带 标记 1。 注 意 ， 必 
须 构造 一 个 新 自动 机 来 识别 1， 一定 不 能 用 作为 图 3-18a 一 部 分 的 1 的 自动 机 。 在 连接 运算 中 的 第 





9 
图 3-18 根据 例 3.8 构 造 的 自动 机 








105, 
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三 个 自动 机 是 另 一 个 0 + 1 的 自动 机 ;同样 ， 必 须 构 造 图 3-18a 的 自动 机 的 一 个 副本 ， 一定 不 能 用 
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成 为 图 3-18b 一 部 分 的 相同 副本 。 完 整 的 自动 机 如 图 3-18c 所 示 。 注 意 ， 当 删除 转移 后 ， 这 个 e- 
NEA 看 上 去 就 像 图 3-15 的 简单 得 多 的 自动 机 ， 这 个 自动 机 也 接受 在 倒数 第 二 位 是 1 的 串 。 口 


3.2.4 习题 
习题 3.2.1 下 面 是 一 个 DFA 的 转移 表 : 

o jı 

7H i |a 

2 || a | a 

*q || 43 | G2 


*# a) 给 出 所 有 正则 表达 式 RO, 2S: 认为 状态 4, 好像 是 具有 整数 编号 的 状态 。 
* b) 给 出 所 有 正则 表达 式 R" 。 试 着 尽量 化 简 这 些 表达 式 。 
O 给 出 所 有 正则 表达 式 R*”。 试 着 尽量 化 简 这 些 表达 式 。 
d) 给 出 这 个 自动 机 的 语言 的 正则 表达 式 。 
* e) 构造 这 个 DFA 的 状态 转移 图 ， 通 过 消除 状态 4， 给 出 其 语言 的 正则 表达 式 。 
习题 3.2.2 对 下 列 DFA 重 复习 题 32.1: 
0 |1 
>q || 92 | 9 
a |as 
*#g3s |] 92 |}. 
注意 ， 对 于 这 个 习题 来 说 ， 部 分 (a)、(b) 和 (e) 无 解 。 
习题 3.2.3 把 下 列 DFA 转 化 成 正则 表达 式 ， 用 3.2.2 节 的 状态 消除 技术 。 


习题 3.2.4 把 下 列 正则 表达 式 转化 成 带 e 转 移 的 NFA。 
*a) 01", 
b) 0+ 101, 
c) 00(0 + 1)", 
习题 3.2.5 消除 习题 3.2.4 的 e-NFA 的 e 转 移 。(a) 部 分 的 解 出 现在 本 书 的 网 页 上 。 
! 习题 3.2.6 设 4= (Q, X, ô, qo, {4q/)) 是 一 个 ENFA， 使 得 既 没 有 进入 go 的 转移 ， 也 没有 离开 gy 
的 转移 。 就 L = L(A) 而 言 ， 描 述 4 的 每 一 个 下 列 修改 所 接受 的 语言 : 
*a) 通过 增加 从 gy 到 qo 的 转移 ， 从 4 构造 的 自动 机 。 
* b) 通过 增加 从 go 到 每 个 从 qo 可 达 ( 沿 着 标记 包含 3 中 符号 和 s 的 路 径 ) 的 状态 的 e 转 移 ， 从 4 
构造 的 自动 机 。 
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©) 通过 增加 从 每 个 能 沿 着 某 条 路 径 到 达 gy 的 状态 到 gy 的 转移 ， 从 4 构造 的 自动 机 ; 
D 通过 同时 做 (b) 和 (c) 的 修改 从 4 构造 的 自动 机 。 
下 习题 3.2.7 把 正则 表达 式 转化 为 ejNFA 的 定理 3.7 的 构造 ， 有 些 地 方 可 以 化 简 。 这 里 有 三 处 : 
1. 对 于 并 运算 符 ,不 是 构造 新 的 初始 状态 和 接受 状态 ， 而 是 把 两 个 初始 状态 合并 成 一 个 具 
备 两 个 初始 状态 的 所 有 转移 的 状态 。 同 样 ， 合 并 两 个 接受 状态 ， 让 所 有 的 转移 相应 地 进 
入 合并 状态 。 
2. 对 于 连接 运算 符 ， 把 第 一 个 自动 机 与 第 二 个 自动 机 的 接受 状态 合并 。 
3. 对 于 闭 包 运 算 符 ， 只 是 增加 从 接受 状态 到 初始 状态 的 以 及 反方 向 的 a 转移 。 
每 一 个 这 种 化 简 本 身 仍然 产生 正确 的 构造 ， 也 就 是 说 ， 对 于 任何 正则 表达 式 ， 得 出 的 aNFA 接 受 
这 个 表达 式 的 语言 。 变 化 (0)、(2) 和 (3) 的 哪些 子 集 可 以 一 起 用 在 构造 中 ， 对 于 每 一 个 正则 表达 式 ， 
仍然 产生 正确 的 自动 机 ? 
"习题 3.2.8 ”给 出 一 个 算法 : 输入 一 个 DFA A， 对 于 给 定 的 n (与 4 的 状态 个 数 无 关 )， 计 算出 
4 所 接受 的 长 度 为 n 的 串 的 个 数 。 这 个 算法 应 当 对 于 n 和 A 的 状态 数 来 说 都 是 多 项 式 的 。 提 示 : 使 
用 定理 3.4 的 构造 所 提示 的 技术 。 


3.3 正则 表达 式 的 应 用 


对 于 搜索 文本 中 模式 的 应 用 来 说 ， 正 则 表达 式 是 一 种 选择 媒介 ， 给 出 了 要 识别 模式 的 “图 
像 "。 然 后 在 后 台 正 则 表达 式 被 编译 成 确定 型 自动 机 或 非 确定 型 自动 机 ， 再 通过 模拟 自动 机 来 
产生 识别 文本 中 模式 的 程序 。 本 节 考 虑 两 类 重要 的 基于 正则 表达 式 的 应 用 ， 词 法 分 析 器 和 文本 
搜索 。 


3.3.1 UNIX 中 的 正则 表达 式 


在 理解 应 用 之 前 ， 先 介绍 UNIX 的 扩展 正则 表达 式 记号 。 这 种 记号 给 出 了 许多 附加 功能 。 事 
KE, 这 种 UNIX 扩 展 包含 了 某 些 特征 , 特别 是 命名 和 引用 已 经 与 模式 匹配 了 的 前 面 的 串 的 能 力 ， 
这 实际 二 允许 识别 非 正则 语言 。 这 里 不 会 考虑 这 些 特征 ， 而 是 仅仅 介绍 一 些 允 许 紧凑 地 书写 复 
杂 正则 表达 式 的 缩写 。 

对 正则 表达 式 记号 的 第 一 项 增强 涉及 这 样 的 事实 : 大 多 数 实际 应 用 都 处 理 ASCII 字 符 集 。 本 
书 中 的 例子 通常 使 用 小 字母 表 ， 比 如 {0, 1}。 只 存在 两 种 符号 ， 这 允许 书写 紧 资 的 表达 式 ， 比 
如 0 + 1 就 表示 “任意 字符 "。 但 是 ， 假 如 有 128 种 字符 ， 同 样 的 表达 式 就 要 涉及 列 出 所 有 字符 ， 
这 非常 不 便于 书写 。 因 此 ，UNIX 正 则 表达 式 允 许 书写 字符 类 来 尽 可 能 紧凑 地 表示 大 的 字符 集 。 
字符 类 的 规则 是 : 

"符号 (点 ) 表示 “任意 字符 ”。 

“序列 [wa…ad] 表 示 正 则 表达 式 


Qt at + a 


这 个 记号 大 约 节省 一 半 字 符 ， 因 为 无 需 书写 + (加 号 )。 例 如 ，C 语 言 比较 运算 所 用 的 4 种 
字符 表示 成 [<>=!]。 
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。 在 方 括号 之 间 规 定形 如 x 一 y 的 范围 ， 表 示 ASCII 序 列 中 从 x 到 y 的 所 有 字符 。 由 于 数字 按 顺 
序 编码 , 大 写字 母 和 小 写字 母 也 这 样 ， 所 以 只 用 很 少 输入 就 能 表示 真正 关心 的 许多 字符 类 。 
例如 ， 数 字 表 示 成 [0-9] ， 大 写字 母 表示 成 [LA-2] ， 所 有 字母 和 数字 的 集合 表示 成 [A- 
Za-z0-9]。 如 果 要 在 字符 列表 中 包含 负 号 ， 就 放 在 开头 或 结尾 ， 这 样 不 会 与 字母 范围 的 








109] 形式 相 混 清 。 例 如 ， 要 形成 带 符号 的 十 进 制 数 ， 所 用 的 数字 集合 以 及 点 、 加 号 和 负 号 等 表 








示 成 [-+.0-9]。 方 括号 或 者 在 UNIX 正 则 表达 式 中 有 特殊 意义 的 其 他 字符 ， 表 示 成 在 对 
应 字符 前 加 一 个 斜 杠 (\)。 ; 
。 儿 种 最 常见 的 字符 类 有 特殊 记号 。 例 如 : 
a) [:digit:] 是 十 进 制 数字 集合 ， 与 [0-91 相 同 。 
b) [talpha: ] 表 示 任 何 字母 字符 ， 与 [A-2a-z] 相 同 。 
c) [ :alnum: ] 表 示 数 字 和 字母 (字母 和 数字 字符 )， 与 [A-2a-z0-9] 相 同 。 
另外 ， 有 几 个 在 UNIX 正 则 表达 式 中 使 用 的 运算 符 ， 前 面 还 没有 遇 到 过 。 这 些 运算 符 不 扩大 
所 表示 的 语言 范围 ， 但 有 时 更 容易 表达 所 要 表达 的 东西 。 
1. 用 | 代替 + 来 表示 并 。 
2. 运 算 ?表示 “0 个 或 1 个 "。 因 此 ，UNIX 中 R? 与 本 书 正则 表达 式 记号 中 =+ R 一 样 。 
3. 运算 + 表示 “1 个 或 多 个 "。 因 此 ，UNIX 中 R+ 与 本 书 中 RR" 一 样 。 
4. 运算 { 妇 表示 “2 个 副本 "。 因 此 ，UNIX 中 R{5} 是 RRRRR 的 缩写 。 
注意 ，UNIX 正 则 表达 式 允 许 用 括号 来 对 子 表达 式 分 组 ， 与 3.1.2 节 描述 的 正则 表达 式 完全 一 
样 ， 并 且 采 用 同样 的 运算 符 优先 级 (考虑 优先 级 时 ，? 、+ 和 {n} 按 * 对 待 )。UNIX 中 使 用 星 运算 
符 * (当然 不 再 是 上 标 ) 与 本 书 前 面 所 用 的 意思 相同 。 





UNIX 正 则 表达 式 的 完整 故事 


想 要 得 到 UNIX 正 则 表达 式 记号 中 可 用 运算 符 与 缩写 的 完整 列表 的 读者 ， 可 在 各 种 命令 
的 手册 页 上 找到 这 些 列表 。UNIX 各 种 版 本 之 间 有 一 些 差别 ， 但 像 man grep 这 样 的 命令 ， 
会 给 出 grep 命 令 所 用 的 记号 ， 这 是 基本 的 。 顺 便 说 一 下 ,“Grep” 表 示 “Global (search 
for) Regular Expression and Print”, 





3.3.2 词法 分 析 


一 项 最 早 的 正则 表达 式 应 用 ， 是 规定 称 为 “词法 分 析 器 ”的 编译 器 部 件 。 这 个 部 件 扫描 源 
程序 ， 识 别 所 有 的 记号 (token) ， 即 在 逻辑 上 成 为 一 体 的 连续 字符 的 子 串 。 关 键 字 和 标识 符 都 是 








110) 记号 的 常见 例子 ， 但 还 有 许多 其 他 例子 。 








UNIX 命 令 lex 和 GNU 版 本 的 flex 都 接受 UNIX 风 格 的 正则 表达 式 列表 作为 输入 ， 每 个 正则 
表达 式 后 面 跟着 花 括号 内 的 一 节 代码 ， 当 词法 分 析 器 发 现 记号 实例 时 ， 代 码 指示 词法 分 析 器 如 
何 工作 。 这 样 的 工具 称 为 词法 分 析 器 生成 器 ， 因 为 把 词法 分 析 器 的 高 层 描述 作为 输入 ， 由 此 产 


© [sdigit:] 记 号 有 这 样 的 优点 ， 如 果 使 用 某 种 非 ASCH 编 码 ， 包 括 不 对 数字 连续 编码 的 编码 ，[ :digit:] 仍 
然 表示 [0123456789]， 而 [0-9] 表 示 在 0 到 9 ( 含 4 和 9) 的 编码 之 间 编码 的 字符 。 
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生 正 确 的 词法 分 析 器 函数 。 

已 经 发 现 ， 像 lex 和 flex 这 样 的 命令 非 党 有用， 因为 正则 表达 式 记 号 恰好 具备 了 描述 记号 
所 需要 的 能 力 。 这 些 命令 能 够 利用 从 正则 表达 式 到 自动 机 的 转换 过 程 来 生成 有 效 的 函数 ， 把 源 
程序 分 解 成 记号 。 这 使 得 实现 一 个 词法 分 析 器 只 要 半天 工夫 ， 而 在 开发 这 些 基于 正则 表达 式 的 
工具 之 前 ,手工 生成 词法 分 析 器 要 花费 数 月 时 间 。 而 且 ， 如 果 出 于 任何 理由 需要 修改 词法 分 析 
器 ， 修 改 一 两 个 正则 表达 式 常常 就 是 简单 的 工作 ， 不 再 需要 深入 神秘 的 代码 来 改正 错误 。 


例 3.9 ”图 3-19 中 是 lex 命 令 的 部 分 输入 的 一 个 例子 ， 描 述 了 C 语 言 中 发 现 的 一 些 记号 。 第 一 
行 处 理 关键 字 else， 动 作 是 返回 一 个 符号 常量 (在 这 个 例子 中 是 ELSE) 给 语法 分 析 器 进一步 
处 理 。 第 二 行 包含 一 个 正则 表达 式 描述 标识 符 ; 一 个 字母 跟着 零 个 或 多 个 字母 或 数字 。 动 作 是 
首先 把 这 个 标识 符 输入 到 符号 表 (如 果 这 个 标识 符 还 没有 在 那里 的 话 ) ，Ilex 在 一 个 缓冲 区 中 
单列 出 所 发 现 的 这 个 记号 ， 所 以 这 段 代码 确切 地 知道 发 现 了 什么 标识 符 。 最 后 ， 词 法 分 析 器 返 
回 符号 常量 ID， 在 这 个 例子 中 选择 用 ID 表示 标识 符 。 





else {return(ELSE);} 
[A-Za-z] [A-Za-z0-9]* { 把 发 现 的 标识 符 输入 
到 符号 表 中 的 代码 ， 
return(ID) ; 
} 
>= {return(GE);} 


= {return (ASGN) ;} 





图 3-19 lex 输 入 的 例子 


图 3-19 的 第 三 项 是 符号 >=， 一 个 双 字 符 运 算 符 。 显 示 的 最 后 一 个 例子 是 符号 =， 一 个 单字 符 
运算 符 。 在 实际 中 可 能 出 现 描述 每 一 个 关键 字 、 每 一 个 符号 和 标点 符号 (比如 逗号 和 括号 ) 以 
及 各 种 常量 【比如 数 与 串 ) 的 表达 式 。 这 些 表达 式 许多 都 是 非常 简单 的 ， 只 是 一 个 或 多 个 具体 
字符 的 序列 。 但 是 ， 有 一 部 分 带 有 一 些 标识 符 的 风格 ， 要 用 正则 表达 式 记号 的 所 有 能 力 来 描述 。 
整数 、 浮 点 数 、 字 符 串 以 及 注释 都 是 串 集合 的 其 他 例子 ， 都 得 益 于 像 1ex 这 样 的 命令 的 正则 表 
达 式 能 力 。 口 


把 一 组 表达 式 (比如 图 3-19 所 示 的 这 些 ) 转化 成 自动 机 ， 大 致 上 像 在 前 几 节 中 形式 化 地 描 
述 的 那样 来 进行 。 首 先 构造 这 些 表达 式 的 并 的 自动 机 。 这 个 自动 机 原则 上 只 说 明 已 经 识别 出 了 
一 些 记号 。 但 是 ， 如 果 遵 循 定理 3.7 对 于 表达 式 并 的 构造 ， 则 这 个 =NFA 状 态 恰好 说 明 已 经 识别 
了 哪些 记号 。 

惟一 的 问题 是 一 次 可 能 识别 出 多 个 记号 ,例如 ， 串 else 不 仅 匹配 正则 表达 式 else， 而 且 也 
匹配 标识 符 表达 式 。 标 准 解决 办 法 是 让 词法 分 析 器 优先 处 理 先 列 出 的 表达 式 。 因 此 ， 如 果 要 让 
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像 else 这 样 的 关键 字 成 为 保留 的 (不 能 用 作 标 识 符 )， 就 简单 地 把 这 些 关键 字 列 在 标识 符 表达 
式 的 前 面 。 


3.3.3 查找 文本 中 的 模式 


在 2.4.1 节 介绍 了 这 样 的 概念 ， 就 是 可 以 用 自动 机 来 有 效 地 在 大 的 库 ( 比 如 Web) 中 查找 一 
些 单词 的 集合 。 这 样 做 的 工具 和 技术 不 像 词法 分 析 器 那样 丰富 ， 但 对 于 查找 有 趣 的 模式 来 说 ， 
正则 表达 式 记 号 是 有 价值 的 。 正 如 对 于 词法 分 析 器 那样 ， 从 自然 的 描述 性 的 正则 表达 式 记号 到 
一 种 有 效 的 (基于 自动 机 的 ) 实现 ， 这 样 的 转换 能 力 节 省 了 大 量 的 脑力 劳动 。 

已 经 发 现 ， 正 则 表达 式 技术 有 用 的 一 般 问 题 是 ， 对 文本 中 模糊 定义 的 模式 类 的 描述 。 描 述 
的 模糊 性 实际 上 保证 了 不 必 一 开始 就 正确 地 描述 模式 一 也许 永远 也 不 能 恰好 得 出 正确 的 描述 。 
通过 使 用 正则 表达 式 记 号 ， 只 用 很 少 的 努力 来 从 高 层 去 描述 模式 ， 在 出 错时 快速 地 修改 模式 ， 
这 些 都 变 得 容易 了 。 对 于 把 写 出 的 表达 式 转化 成 可 执行 代码 来 说 ， 正 则 表达 式 “ 编 译 器 ”是 有 
用 的 。 

来 探讨 一 个 在 许多 Web 应 用 中 出 现 的 问题 的 扩展 例子 。 假 设 要 扫描 非常 大 量 的 Web 页 面 并 控 
测 出 地 址 。 可 能 只 是 想 建立 邮件 地 址 表 。 或 者 ， 也 许 是 在 尝试 根据 地 点 来 对 业务 进行 分 类 ， 使 
得 能 够 回答 像 “ 赫 我 找 一 家 在 我 目前 位 置 10 分 钟 车 程 之 内 的 饭馆 ”这 样 的 查询 。 

具体 就 会 把 注意 力 集中 到 街道 的 地 址 上 。 什 么 是 街道 的 地 址 ?需要 设法 解决 这 个 问题 ， 而 
且 如 果 在 测试 软件 时 发 现 遗 漏 了 某 些 情形 ， 就 需要 修改 表达 式 以 捕捉 所 遗漏 的 情形 。 首 先 ， 街 
道 地址 可 能 以 “Street”( 大 街 ) 或 缩写 “St.” 来 结尾 。 但 是 ， 有 些 人 住 在 “Avenues”( 大 道 ) 
或 “Roads”( 大 路 ) 上 ， 这 些 也 可 能 在 地 址 中 有 缩写 。 因 此 ， 可 能 把 类 似 于 

Street |St\.|Avenue|Ave\.|Road|Rd\. 


这 样 的 东西 作为 正则 表达 式 的 结尾 。 在 上 述 表达 式 中 ， 使 用 了 UNIX 风 格 的 记号 ， 用 垂直 坚 线 而 
不 是 + 作为 并 运算 符 。 还 要 注意 ， 用 前 面 一 个 反 斜 杠 来 对 点 进行 转 义 ， 因 为 在 UNIX 表 达 式 中 点 
具有 “任意 字符 ”的 特殊 含义 ， 而 在 这 个 例子 中 ， 其 实 只 想 用 句点 或 “点 ”字符 来 结束 这 三 个 
缩写 。 

像 street 这 样 的 指称 前 面 必 须 有 街道 的 名 称 。 通 常 ， 这 个 名 称 是 一 个 大 写字 母 跟着 一 些小 
写字 母 。 可 以 用 UNIX 表 达 式 [A-2] [a-z * 来 描述 这 个 模式 。 但 有 些 街道 的 名 字 包 含 多 个 单词 ， 
比如 华盛顿 特区 的 Rhode Island Avenue ( 罗 得 岛 大 道 )。 因 此 ， 在 发 现 遗 漏 了 这 种 形式 的 地 址 之 
后 ， 就 可 以 把 街道 名 称 的 描述 修订 为 

*[A-Z][a-z]*( [A-Z2][a-z]*)*’ 

上 述 表达 式 以 一 个 组 来 开头 ， 包 含 一 个 大 写字 母 和 零 个 或 多 个 小 写字 母 。 后 面 跟着 零 个 或 
多 个 组 ， 每 组 都 包含 一 个 空格 、 另 一 个 大 写字 母 以 及 零 个 或 多 个 小 写字 母 。 空 格 是 UNIX 表 达 趟 
中 的 普通 字符 , 但 为 了 避免 让 上 述 表达 式 看 起 来 像 一 条 UNIX 命 令 行 中 用 空格 分 开 的 两 个 表达 式 ， 
就 要 用 引号 把 整个 表达 式 都 括 起 来 。 引 号 并 不 是 表达 式 本 身 的 一 部 分 。 

现在 ， 要 包括 门牌 号 作为 地 址 的 一 部 分 。 大 多 数 门牌 号 都 是 一 个 数字 串 。 但 有 些 后 面 跟着 
一 个 字母 ， 比 如 在 “123A Main St.” 中 。 因 此 ， 用 来 表示 门牌 号 的 表达 式 有 一 个 可 选 的 尖 写 学 
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母 跟 在 后 面 : [0-9]+[R-2]?。 注 意 ， 用 UNIX+ 运 算 符 表示 “一 个 或 多 个 ”数字 ， 用 ?运算 符 表 
示 “ 零 个 或 一 个 ”大 写字 母 。 为 街道 地 址 开发 的 整个 表达 式 是 : 

*[0-9]+[A-Z]? [A-Z][a-z]*( [A-Z][a-z]*)* 

(Street |St\.|Avenue|Ave\. |Road|Rd\.)’ 
如 果 用 这 个 表达 式 来 工作 ， 就 会 做 得 相当 好 。 但 逐渐 会 发 现 我 们 遗漏 了 : 

1. 叫 别 的 什么 而 不 是 叫 大 街 、 大 道 或 大 路 的 那些 街道 。 例 如, Aitik “Boulevard”, “Place”, 
“Way” 及 其 缩写 。 

2. 完全 是 数字 或 部 分 是 数字 的 街道 名 称 ， 如 “42nd Street”( 第 42 大 街 )。 

3. 邮 政信 箱 和 乡村 投递 路 线 。 

4. 不 以 任何 像 “Street” 这 样 的 字样 来 结尾 的 街道 名 称 。 一 个 例子 是 硅谷 的 EI Camino Real, 
作为 西班牙 语 的 “皇家 大 路 "， 说 “El Camino Real Road” 是 多 余 的 ， 所 以 就 需要 处 理 像 
“2000 El Camino Real” 这 样 的 完整 地 址 。 

5. 所 有 还 没有 想到 的 各 种 奇怪 东西 。 读 者 能 想 出 一 些 吗 ? 

因此 ， 有 了 一 个 正则 表达 式 编译 器 ， 就 能 让 缓慢 收敛 到 一 个 完整 地 址 识别 器 的 过 程 ， 比 不 得 不 
直接 用 常规 的 程序 设计 语言 来 对 每 个 修改 去 重 写 代码 ， 更 容易 一 些 。 


3.3.4 习题 


! 习题 3.3.1 ”给 出 一 个 正则 表达 式 ， 来 描述 所 能 想到 的 所 有 不 同形 式 的 电话 号 码 。 考 虑 国际 
号 码 以 及 不 同 国家 有 不 同位 数 的 区 号 和 本 地 电话 号 码 。 

n 习题 3.3.2 ”给 出 一 个 正则 表达 式 ， 来 表示 在 招聘 广告 中 可 能 出 现 的 薪水 。 考 虑 可 能 按 小 时 、 
周 ， 月 或 年 发 放 的 和 薪水。 这些 薪水 可 能 有 也 可 能 没有 $ (如 美元 ) 符号 或 其 他 单位 (如 后 面 跟着 
的 “kK")。 可 能 有 一 个 或 多 个 邻近 的 单词 标志 着 薪水 。 提 示 : 查看 报纸 上 的 分 类 广告 或 在 线 职位 
列表 ， 来 获得 一 些 关于 什么 样 的 模式 可 能 有 用 的 想法 。 

! 习题 3.3.3 ”在 3.3.3 节 末尾 给 出 了 一 些 例子 ， 都 是 关于 描述 地 址 的 正则 表达 式 的 可 能 的 改进 。 
修改 那里 开发 的 表达 式 ， 以 包括 所 有 提 到 的 选项 。 


3.4 正则 表达 式 代数 定律 


例 3.5 中 看 到 ， 需 要 对 正则 表达 式 进行 化 简 ， 以 保持 表达 式 长 度 适合 处 理 ; 在 那里 ， 给 出 了 
一 些 专门 论证 ， 说 明 为 什么 可 以 把 一 个 表达 式 换 成 另 一 个 。 在 所 有 情形 下 ， 基 本 问题 都 是 ; 在 
定义 相同 语言 的 意义 下 ， 这 两 个 表达 式 是 等 价 的 。 本 节 中 给 出 一 组 代数 定律 ， 把 两 个 正则 表达 
式 何 时 等 价 的 问题 提 到 更 高 的 层次 上 。 不 检查 具体 的 正则 表达 式 ， 而 考虑 以 变量 作为 参数 的 成 
对 的 正则 表达 式 。 如 果 把 两 个 带 变量 表达 式 的 变量 换 成 任意 语言 ， 这 两 个 表达 式 的 结果 是 相同 
的 语言 ， 则 这 两 个 表达 式 是 等 价 的 。 

这 种 过 程 在 算术 代数 中 的 一 个 例子 如 下 。 说 1 + 2 = 2+ 1 是 一 个 方面 。 这 是 加 法 交换 律 的 一 
个 例子 ， 容 易 验证 ， 在 两 边 做 加 法 运算 得 到 3=3。 但 加 法 交换 律 却 包含 得 更 多 ， 这 条 定律 说 : x 
+ 了 =y+x， 其 中 x 和 ?都 是 可 以 代 换 成 任意 两 个 数 的 变量 。 也 就 是 说 ， 无 论 哪 两 个 数 相 加 ,无论 
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以 什么 顺序 相 加 ， 都 得 到 相同 的 结果 。 

与 算术 表达 式 一 样 ， 正 则 表达 式 有 许多 适用 的 定律 。 如 果 把 并 当 作 加 法 ， 把 连接 当 作 乘法 ， 
则 许多 这 样 的 定律 都 与 算术 定律 类 似 。 但 有 少数 地 方 这 种 类 比 不 成 立 ， 也 有 一 些 定律 适合 于 正 
则 表达 式 ， 而 没有 对 应 的 算术 定律 ， 特 别 是 当 涉 及 到 闭 包 运算 符 时 。 下 面 几 节 构 成 了 主要 定律 
的 分 类 目录 。 最 后 讨论 ， 如 何 验 证 一 条 所 谓 的 正则 表达 式 定律 是 否 真 的 是 一 条 定律 ， 即 它 对 于 
可 能 赫 换 变 量 的 任意 语言 都 成 立 。 


3.4.1 结合 律 与 交换 律 


交换 律 是 运算 符 的 这 样 一 种 性 质 ， 可 以 交换 运算 对 象 的 顺序 而 得 出 相同 的 结果 。 上 面 给 出 
了 一 个 算术 的 例子 : x + y = y + x。 结 合 律 是 运算 符 的 这 样 一 种 性 质 ， 允 许 在 运算 符 被 应 用 两 次 
时 对 运算 对 象 进行 重新 分 组 。 例 如 ， 乘 法 结合 律 是 (tx y) Xz = xX (y xz)。 这 里 是 三 条 对 于 正则 
表达 式 成 立 的 这 些 类 型 的 定律 。 

*L+M=M+L。 该 定律 (并 的 交换 律 ) 说 : 可 以 用 任意 顺序 来 取 两 个 语言 的 并 。 

e(L+M)+N=L+(M+N), ZEE (并 的 结合 律 ) 说 : 可 以 通过 先 取 前 两 个 语言 的 并 或 者 

先 取 后 两 个 语言 的 并 ， 来 取 三 个 语言 的 并 。 注 意 ， 加 上 并 的 交换 律 ， 就 得 出 : 以 任意 顺序 

和 任意 分 组 来 取 任 意 一 组 语言 的 并 ， 结 果 都 是 相同 的 。 从 直观 上 说 ， 一 个 串 属于 LUL2U 

“…UL， 当 且 仅 当 这 个 串 属于 一 个 或 多 个 L。 

“(LM)N = L(MN)。 该 定律 (连接 的 结合 律 ) 说 : 可 以 通过 先 连接 前 两 个 语言 或 者 先 连接 后 

两 个 语言 ， 来 连接 三 个 语言 。 

这 个 表 中 遗漏 的 是 LM = ML， 该 “定律 ”说 : 连接 是 交换 的 。 但 这 条 “定律 ”是 假 的 。 


例 3.10 考虑 正则 表达 式 01 和 10。 这 些 表达 式 分 别 表示 语言 {01} 和 {10}。 由 于 这 两 个 语言 是 
不 同 的 ， 所 以 一 般 的 定律 LM = ML 不 成 立 。 如 果 这 个 定律 成 立 ， 则 用 正则 表达 式 0 炎 换 L， 用 1 殖 
换 M， 就 错误 地 得 出 01 = 10。 A 


3.4.2 单位 元 与 零 元 


运算 符 的 单位 元 是 这 样 一 个 值 : 使 得 当 运 算 符 作用 到 单位 元 和 某 个 其 他 值 时 ， 结 果 就 是 那 
个 其 他 值 。 例 如 ，0 是 加 法 的 单位 元 ， 因 为 0 +x =x+ 0 = x+ 1 是 乘法 的 单位 元 ， 因 为 1Xx = xx 
1 = x。 运 算 符 的 零 元 〈 堆 化 子 ) 是 这 样 一 个 值 : 使 得 当 运算 符 作用 到 零 元 和 某 个 其 他 值 时 ， 结 
果 就 是 这 个 零 元 。 例 如 ，0 是 乘法 的 零 元 ， 因 为 0xx=xx0 = 0。 加 法 没有 零 元 。 

对 于 正则 表达 式 ， 有 三 条 涉及 这 两 个 概念 的 定律 ， 这 些 定律 列 出 如 下 : 

“p+L=L+9= 上 。 这 条 定律 断言 : 9 是 并 运算 的 单位 元 。 

“EL=Le=L。 这 条 定律 断言 se 是 连接 运算 的 单位 元 。 

“9L=L9= yp。 这 条 定律 断言 ，9 是 连接 运算 的 零 元 。 

这 些 定律 是 化 简 的 有 力 工具 。 例如， 如 果 有 几 个 表达 式 的 并 ， 其 中 一 些 是 9 或 已 经 化 简 为 $， 
则 可 以 从 这 个 并 中 去 掉 这 些 p。 同 样 ， 如 果 有 几 个 表达 式 的 连接 ， 其 中 一 些 是 s 或 已 经 化 简 为 6， 
则 可 以 从 这 个 连接 中 去 掉 这 些 e。 最 后 ， 如 果 有 任意 多 个 表达 式 的 连接 ， 即 使 其 中 一 个 是 p， 则 
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整个 连接 都 可 以 换 成 p。 
3.4.3 分 配 律 


分 配 律 涉及 两 个 运算 符 ， 并 断言 : 可 以 把 一 个 运算 符 下 推 ， 分 别 作用 到 另 一 个 运算 符 的 每 
个 参数 上 。 从 算术 来 的 最 普通 例子 是 乘法 对 加 法 的 分 配 律 ， 也 就 是 说 ,， xx Gy +z)=xxy +xXz。 
由 于 乘法 是 交换 的 ， 所 以 乘 是 在 和 的 左边 还 是 右边 ， 这 都 是 无 关 紧 要 的 。 但 对 于 正则 表达 式 ， 
有 一 条 对 应 的 定律 却 必须 以 两 种 形式 来 叙述 ， 因 为 连接 不 是 交换 的 。 这 两 条 定律 是 : 

“LM+AN) = LM + LN。 这 条 定律 是 连接 对 于 并 的 左 分 配 律 。 

“(M+ NN)L= ML+ NL。 这 条 定律 是 连接 对 于 并 的 右 分 配 律 。 

我 们 来 证 明 一 下 这 条 左 分 配 律 ， 类 似 地 证 明 另 一 个 。 这 个 证 明 只 提 到 语言 ， 并 不 依赖 于 这 
些 语言 具有 正则 表达 式 。 


定理 3.11 如 果 L、M 和 NN 是 任意 语言 ， 则 
L(MUN) = LMULN 

证 明 ”这 个 证 明 类 似 于 定理 1.10 中 看 到 的 另 一 个 关于 分 配 律 的 证 明 。 需 要 先 证 明 : 一 个 串 w 
属于 LMUN)， 当 上 且 仅 当 这 个 串 属于 LMULN。 

( 仅 当 ) 如 果 w 属 于 LMUN)， 则 w = xy， 其 中 x 属于 L， 而 y 属 于 M 或 N。 如 果 y 属 于 M， 则 xy 属 
于 LAM， 因 此 属于 LMULN。 同 样 ， 如 果 ? 属 于 N， 则 xy 属于 LN， 因 此 属于 LAMULN。 

( 当 ) 假设 w 属 于 LMULN， 则 w 属 于 LM 或 LN。 首 先 假设 w 属 于 LM， 则 w = xy, Sex MPL, 
而 y 属 于 M。 由 于 y 属 于 M，y 也 属于 MUN。 因此 xy 属于 LUMUM。 如 果 w 不 属于 LM， 则 w 肯 定 属于 
LN， 同样 的 论证 就 证 明了 w 属 于 LOMUN)。 口 


例 3.12 ”考虑 正则 表达 式 0 + 01"。 可 从 这 个 并 表达 式 中 “提出 一 个 0 因子 "， 但 首先 需要 认识 
到 ，0 本 身 就 是 0 与 某 个 东西 ( 即 e) 的 连接 。 也 就 是 说 ， 用 连接 运算 的 单位 元 定律 把 0 换 成 0e， 
给 出 表达 式 0s + 01。 现 在 ， 应 用 左 分 配 律 把 这 个 表达 式 换 成 0(s + 1)。 如 果 进 一 步 认识 到 ，s 属 
于 CD)， 就 会 注意 到 e+ 工 = 工 ， 整 个 表达 式 化 简 为 01。 o 


3.4.4 PHR 


IRAE — i PE AB SB, RAMA, RUE THE RF HH, 
普通 算术 运算 符 都 不 是 寡 等 的 ， 在 一 般 情况 下 ，x + AH xxx (RAE ERA, RE 
等 式 成 立 ， 比 如 0 + 0 = 0)。 但 并 和 交 都 是 等 等 运算 符 的 常见 例子 。 因 此 ， 对 于 正则 表达 式 ,可 
以 断言 下 面 的 定律 : 

*L+L=L。 这 条 定律 (HRPE) 说 ; 如 果 取 两 个 相同 表达 式 的 并 ， 就 可 以 用 一 个 这 种 

表达 式 来 代替 这 个 并 。 


3.4.5 与 闭 包 有 关 的 定律 
有 许多 定律 都 涉及 到 闭 包 运算 符 及 其 UNIX 变 种 * 和 ?。 这 里 列 出 这 些 定律 ,并 给 出 一 些 解释 ， 
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说 明 为 什么 这 些 定律 为 真 。 

*(L)*= 上 '。 这 条 定律 说 ; 对 一 个 已 经 取 过 闭 包 的 表达 式 取 闭 包 ， 并 不 改变 这 个 语言 。(Z) 
的 语言 是 通过 连接 属于 语言 六 的 串 产生 的 所 有 的 串 。 但 这 些 串 本 身 都 是 从 Z 的 串 合 成 的 。 
因此 ， 属 于 (L')* 的 串 也 是 一 些 L 的 串 的 连接 ， 因 此 属于 上 的 语言 。 

*@'= s。 例 3.6 中 讨论 过 ， 乡 的 闲 包 只 含 串 e。 

sé&se, 容易 验证 ， 通 过 连接 任意 多 个 空 串 形 成 的 惟一 的 串 就 是 空 串 本 身 : 

eL=LV=L'L, ELF, 4L EHL + LL + LLL +, WAL = e+ L+LL+ LLE +, 
因此 ， 

LL’ = Le + LL + LLL + LLLL + 


当 记 住 Le =L 时 ， 就 看 出 LL* 和 5* 的 无 穷 展开 式 是 相同 的 。 这 就 证 明了 L*= LL", L= LLENE 
明 是 类 似 的 。 。 

"大 = 性 + ge。 证 明 是 容易 的 ， 因 为 L* 的 展开 式 包 含 了 L' 的 展开 式 中 除外 的 每 一 项 。 注意， 
如 果 语 言 L 包 含 串 e， 则 附加 的 “+e” 项 是 不 必要 的 ， 也 就 是 说 ， 在 这 种 特殊 情形 下 ， 
b=’, 


“= 8+L。 这 条 规则 其 实 就 是 ?运算 符 的 定义 。 
3.4.6 发 现 正则 表达 式 定律 


形式 化 或 非 形式 化 地 证 明了 上 述 每 一 条 定律 。 但 可 能 提出 无 穷 多 种 关于 正则 表达 式 的 定律 。 
[ua 有 没有 让 正确 定律 容易 被 证 明 的 一 般 方法 ? 事实 是 ， 一 条 定律 的 真 假 归结 为 两 个 具体 语言 的 相 

等 性 的 问题 。 有 趣 的 是 ， 这 种 技术 与 正则 表达 式 运算 符 紧密 相连 ， 不 能 推广 到 包含 某 些 其 他 运 
算 符 (如 交 运 算 符 ) 的 表达 式 。 

为 了 看 出 这 种 检验 如 何 起 作用 ， 我 们 来 考虑 一 条 所 谓 的 定律 ， 比 如 

L+MY= EMY 

这 条 定律 说 ; 如 果 有 任意 两 个 语言 L 和 M， 则 取 L 和 M 的 并 的 闭 包 ， 与 取 语 言 LM 的 闭 包 ， 都 得 
到 相同 的 语言 ， 也 就 是 说 ， 从 L 选 择 零 个 或 多 个 串 ， 后 面 跟着 从 M 选 择 零 个 或 多 个 串 ， 这 样 合成 
的 所 有 的 串 ， 并 且 取 这 个 语言 的 闭 包 。 

为 了 证 明 这 条 定律 ， 首 先 假设 ， 串 w 属 于 语言 (L + M)"e 。 于 是 对 于 某 个 k， 可 以 写 w = mw 
War…we， 其 中 每 个 wi 属于 L 或 M。 由 此 得 出 每 个 wi 属于 语言 LIM"。 证 明 如 下 ， 如 果 w 属 于 L， 就 
从 L 选 出 一 个 串 w,， 这 个 串 也 属于 。 不 从 M 选 出 任何 串 ， 也 就 是 说 ， 从 Mr" 选 出 s。 如 果 wi EFM, 
则 论证 是 类 似 的 。 一 旦 看 出 每 一 个 w 都 属于 忆 M， 就 得 出 w 属 于 这 个 语言 的 闵 包 ， 

要 完成 证 明 ， 还 要 证 明 反 方向 :属于 (L"M") 的 串 也 属于 (L + 10"。 省 略 这 部 分 的 证 明 ， 因 为 
我 们 的 目的 不 是 证 明 这 条 定律 ， 而 是 注意 到 正则 表达 式 的 下 述 重要 性 质 

通过 把 每 个 变量 都 当 作 一 个 不 同 的 符号 ， 就 把 任何 带 变 量 的 正则 表达 式 都 看 作 一 个 具体 的 





O 注意 ， 结 果 就 是 任何 语言 /都 与 自身 的 闭 包 (在 连接 运算 下 ) 相交 换 : L= L'L。 这 条 规则 并 不 与 连接 运算 在 
一 般 情况 下 不 交换 这 个 事实 相 矛 盾 。 
O 为 简单 起 见 ， 把 正则 表达 式 与 其 语言 等 同 起 来 ， 避 免 在 每 个 正则 表达 式 后 面 说 “…… 的 语言 "。 
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正则 表达 式 ， 即 一 个 没有 变量 的 正则 表达 式 。 例 如 ， 把 表达 式 (L + MY 的 变量 5 和 M 分 别 换 成 符 
号 a 和 b， 就 给 出 正则 表达 式 (a +b). 

这 个 具体 表达 式 的 语言 指示 了 这 样 的 串 的 形式 ， 当 把 变量 换 成 语言 时 ， 这 些 串 属于 从 原 表 
达 式 所 形成 的 任何 语言 。 因 此 ， 在 对 (L + MY 的 分 析 中 ， 要 注意 到 ， 用 一 系列 从 Z 或 W 的 选择 来 
合成 的 任意 串 w， 都 属于 语言 (L + M)。 通 过 查看 具体 表达 式 的 语言 L((a + by) (这 个 语言 显然 是 
4 和 的 所 有 的 串 的 集合 ) 就 可 以 得 出 这 个 结论 。 在 一 个 这 样 的 串 当中 ， 可 以 用 属于 L 的 任意 串 来 
替换 a 的 任意 出 现 ， 用 属于 M 的 任意 申 来 赫 换 b 的 任意 出 现 ， 对 于 a 或 5 的 不 同 出 现 ， 可 能 选择 不 
同 的 串 。 把 这 些 替换 应 用 到 属于 (a + by 的 所 有 的 串 ， 就 给 出 了 通过 以 任意 顺序 连接 [或 M 的 串 而 
形成 的 所 有 的 串 。 

上 述 命题 似乎 是 显然 的 ， 但 在 “正则 表达 式 以 外 的 检验 的 扩展 可 能 失败 ”的 方 框 中 指出 ， 
当 把 一 些 其 他 运算 符 加 入 到 三 种 正则 表达 式 运算 符 时 ， 这 个 命题 就 不 再 为 真 。 在 下 一 个 定理 中 
对 于 正则 表达 式 证 明 一 般 的 原理 。 


定理 3.13 ” 设 E 是 带 变量 L, Lay, Lm 的 正则 表达 式 。 对 于 i = 1,2,…, m, 通过 把 的 每 次 出 
现 都 换 成 符号 a 形成 具体 的 正则 表达 式 C。 于 是 对 于 任意 的 语言 L, Loe, L，， 每 一 个 属于 L(E) 的 
串 w 都 可 写成 w = www2…wk， 其 中 每 个 wi 都 属于 任意 的 语言 之 一 (4), mE Raana, MFE 
言 LC)。 非 形式 化 地 说 ， 从 每 个 属于 LCC) 的 串 开始 (如 aja…a )， 把 每 个 a 都 换 成 对 应 语言 L 
中 的 任意 申 ， 这 样 就 构造 出 了 L(E)。 

证 明 ”这 个 证 明 是 表达 式 E 上 的 结构 归纳 法 。 

基础 :基础 情形 是 ，E 为 e、 儿 或 变量 L。 在 前 两 种 情形 下 ， 没 有 什么 要 证 明 的 ， 因 为 具体 表 
达 式 C 与 E 是 相同 的 。 如 果 E 是 变量 L， 则 L(E) = L。 具 体 表达 式 C 就 是 8， 其 中 a 是 L 对 应 的 符号 。 
因此 ，L(C) = {@}。 如 果 在 这 一 个 串 当 中 ， 用 L 中 的 任意 串 来 替换 符号 o， 就 得 到 语言 ， 这 个 语 
言 也 是 LE)。 

归纳 : 根据 E 的 最 终 运 算 符 ， 有 三 种 情形 。 首 先 ， 假 设 E = 下 + G， 即 最 终 运算 符 是 并 。 在 这 
些 语言 表达 式 中 用 具体 符号 来 替换 语言 变量 ， 设 这 样 从 F 和 C 分 别 形成 的 具体 表达 式 是 C 和 D。 注 
意 ， 在 F 和 G 中 ， 都 必须 用 同一 个 符号 来 替换 同一 个 变量 的 所 有 出 现 。 于 是 从 E 得 到 的 具体 表达 
式 是 C+D, 并 且 LC+D)=LC)+ LD). 

假设 当 用 具体 语言 来 料 换 E 的 语言 变量 时 ，w 是 LE) 中 的 串 。 则 w 属 于 LF) 或 LCG)。 根 据 归纳 
假设 ,分 别 从 L(C) 或 L(D) 中 一 个 具体 的 串 开始 ， 把 符号 换 成 对 应 语言 中 的 串 ， 这 样 就 得 到 了 w。 
因此 ， 无 论 在 哪 种 情形 当中 ， 从 L(C + D) 中 一 个 具体 的 串 开始 ， 做 同样 的 用 串 代 赫 符号 的 替换 ， 
就 构造 出 了 串 w。 

还 必须 考虑 E 是 FG 或 广 的 情形 。 但 这 些 论证 与 上 述 并 的 情形 是 类 似 的 ， 把 这 些 论证 留 给 读 
者 来 完成 。 口 


3.4.7 检验 正则 表达 式 代数 定律 


现在 ， 可 以 叙述 并 证 明 对 一 条 正则 表达 式 定律 是 否 为 真 的 检验 了 。 对 于 E = F 是 否 为 真 的 检 
验 (其 中 E 和 和 F 是 两 个 带 相同 变量 集合 的 正则 表达 式 ) 是 : 
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1. 把 每 个 变量 都 换 成 一 个 具体 符号 ， 这 样 分 别 把 E 和 转化 成 具体 的 正则 表达 式 C 和 D。 

2. 检 验 是 否 KC) = LD). MRE, WE = F 是 一 条 真 的 定律 ， 否则 ， 这 条 “定律 ”是 假 的 。 
注意 ， 直 到 4.4 节 才 看 到 对 两 个 正则 表达 式 是 否 表示 相同 语言 的 检验 。 但 可 用 专门 方法 来 
判定 实际 关心 的 成 对 语言 的 等 价 性 。 回 忆 一 下 ， 如 果 这 些 语言 不 相同 ， 则 给 出 一 个 反例 
(属于 一 个 语言 而 不 属于 另 一 个 语言 的 单个 串 ) 就 足够 了 。 


定理 3.14 上 述 检验 正确 地 识别 真 的 正则 表达 式 定律 。 

证 明 要 证 明 : 对 于 替换 E 和 F 的 变量 的 任意 语言 ，L(E)=L(F) 当 且 仅 当 C) = L(D)。 

( 仅 当 ) 假设 对 于 替换 变量 的 语言 的 所 有 选择 ，L(E) = L(F)。 具 体 地 说 ， 对 每 个 变量 L， 选 
择 一 个 具体 符号 a 在 表达 式 C 和 D 中 圭 换 L。 于 是 对 于 这 种 选择 ，L(C) = LE), LD) = LF)。 由 于 
BAILE) = LF)， 所 以 得 出 LC) = LD), 

( 当 ) 假设 L(C) = L(D)。 根 据 定理 3.13， 把 L(C) 和 L(D) 中 串 的 具体 符号 分 别 换 成 这 些 符号 所 
对 应 的 语言 ， 就 分 别 构造 出 了 LE) 和 LF)。 如 果 LC) 和 L(D) 的 串 都 是 相同 的 ， 则 用 这 种 方式 构造 
出 的 两 个 语言 也 是 相同 的 ， 也 就 是 说 ，L(E) = LF)。 口 


例 3.15 ”考虑 有 待考 察 的 定律 (L+AM)- = (LM")*。 如 果 分 别 把 变量 L 和 MM 换 成 具体 的 符号 a 和 b， 
就 得 到 正则 表达 式 (a +b 和 (a*b")*。 容 易 验证 ， 这 两 个 表达 式 都 表示 a 和 b 的 所 有 的 申 的 语言 
因此 ， 这 些 具 体 的 表达 式 表示 相同 的 语言 ， 这 条 定律 成 立 。 

另 一 条 定律 的 例子 是 ， 考 虚 L" = L'L"。 具 体 的 语言 分 别 是 a* 和 a*a*， 这 两 个 集合 各 自 都 是 a 的 
所 有 的 串 。 同 样 ， 发 现 这 条 定律 成 立 ， 也 就 是 说 ， 一 个 闭 包 语言 与 自身 的 连接 还 是 产生 这 个 语 
言 。 

最 后 考虑 有 待考 察 的 定律 L + ML = (L + M)L。 如 果 分 别 为 变量 L 和 MM 选择 符号 a 和 b， 就 有 两 
个 具体 的 正则 表达 式 a + ba 和 (a + bj)a。 但 这 些 表达 式 的 语言 不 相同 。 例 如 ， 串 aa 属于 后 一 个 语 
言 ,但 不 属于 前 一 个 。 因 此 ， 这 条 有 待考 察 的 定律 为 假 。 口 





正则 表达 式 以 外 的 检验 的 扩展 可 能 失败 


考虑 一 种 包含 交 运算 符 的 扩展 正则 表达 式 记号 。 有 趣 的 是 ， 把 m 加 入 三 种 正则 表达 式 
运算 不 扩大 所 描述 的 语言 的 集合 ， 从 定理 4.8 中 会 看 到 这 一 点 。 但 是 ， 这 的 确 让 代数 定律 的 
检验 失效 了 。 

考虑 “定律 "+LNMNN = LOM, 也 就 是 说 ， 任 意 三 个 语言 的 交 等 于 前 两 个 语言 的 交 。 
这 个 “定律 ”明显 是 错 的 。 例 如 ， 设 = M = {a} 且 N = 名。 但 是 基于 变量 具体 化 的 检验 就 
不 能 发 现 这 个 差别 。 也 就 是 说 ， 如 果 把 L[、M 和 分别 换 成 符号 a、b 和 c， 就 会 检验 是 否 
{a}n{b}N{c} = {a}nN{b}。 由 于 两 边 都 是 空 集合 ， 这 个 语言 等 式 成 立 ， 所 以 这 个 检验 得 出 
了 这 个 “定律 ”为 真 。 








| 





3.4.8 习题 
习题 3.4.1 验证 下 列 关于 正则 表达 式 的 恒等式 。 
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*a)R+S=S+R, 
b)(R+S)+T=R+(S+T), 
€) (RS)T = R(ST), 

d) R(S + T) = RS + RT, 
e)(R+S)T=RT + ST, 


*f(RY=R, 
g) (e+R)'=R'。 
h) (R'S'Y'= (R +S)", 


! 习题 3.4.2 证 明 或 推翻 下 列 每 个 关于 正则 表达 式 的 命题 。 
*a) (R+S =R +S, 
b) (RS + R)' R = R(SR + RY, 
* c) (RS + RY RS = (RR'SY 
d) (R + SY'S =(R'S)', 
€) S(RS + S)"R = RR'S(RR'SY 
习题 3.4.3 在 例 3.6 中 得 出 了 正则 表达 式 
(0+ 1°10 + 1) + (0 + 1910+ 1)0+1) 
用 分 配 律 得 出 两 个 不 同 但 更 简单 的 等 价 表达 式 。 
习题 3.4.4 在 3.4.6 节 开头 给 出 了 (CM)"= (L+ M)" 的 部 分 证 明 。 完 成 这 个 证 明 ，, 证明， 几 属 
于 (CM) 的 串 也 属于 (L + My", 
! 习题 3.4.5 完成 定理 3.13 的 证 明 ， 处 理 正则 表达 式 E 形 如 FG 或 所 的 情形 。 


3.5 小 结 


“正则 表达 式 : 这 种 代数 记号 恰好 与 有 穷 自动 机 描述 相同 的 语言 ， 正 则 语言 。 正 则 表达 式 运 
算 符 是 : 并 、 连 接 (或 “点 ") 和 闲 包 (或 “ 星 ") 。 

“实用 正则 表达 式 : 像 UNIX 这 样 的 系统 及 其 各 种 命令 ， 使 用 扩展 的 正则 表达 式 语言 ， 提 供 
了 许多 常见 表达 式 的 缩写 。 字 符 类 允许 容易 地 表达 出 符号 集合 ， 而 像 “ 至 少 一 个 ”和 “至 
多 一 个 ”这 样 的 运算 符 ， 则 增强 了 通常 的 正则 表达 式 运算 符 。 

“正则 表达 式 与 有 穷 自动 机 的 等 价 性 ,用 归纳 构造 把 DFA 转 化 成 正则 表达 式 ， 其 中 构造 出 一 
些 表达 式 作为 路 径 标记 ， 这 些 路 径 经 过 越 来 越 大 的 状态 集合 。 另 一 种 方法 是 ， 用 状态 消除 
过 程 来 构造 DFA 的 正则 表达 式 。 反 之 ， 从 正则 表达 式 递归 地 构造 出 ss:NFA， 然 后 如 有 必要 
就 把 e-NFA 转 化 成 DFA。 

“正则 表达 式 代数 : 正则 表达 式 满足 许多 算术 的 代数 定律 ,但 有 所 不 同 。 并 和 连接 是 结合 的 ， 
但 只 有 并 是 交换 的 。 连 接 对 于 并 是 分 配 的 。 并 是 震 等 的 。 

“检验 代数 恒等式 : 对 于 一 些 包含 变量 作为 变 元 的 正则 表达 式 ， 判 断 这 些 表达 式 的 等 价 性 是 
否 成 立 ， 可 把 变量 换 成 不 同 的 常量 ， 检 验 所 得 语言 是 否 相同 。 
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第 4 章 正则 语言 的 性 质 


本 章 中 我 们 将 会 探讨 正则 语言 的 性 质 ， 在 此 过 程 中 我 们 使 用 的 第 一 个 工具 是 一 个 定理 ， 它 
能 够 证 明 某 个 语言 不 是 正则 的 。 该 定理 叫 作 “ 泵 引 理 "， 将 在 4.1 节 中 介绍 。 

正则 语言 的 一 类 很 重要 的 事实 被 称 为 “封闭 性 ”， 这 些 性 质 使 得 我 们 能 够 从 一 些 语言 出 发 ， 
通过 一 定 的 运算 ， 来 构造 能 够 识别 另 一 些 语言 的 识别 器 。 例 如 ， 两 个 正则 语言 的 交 仍然 是 正则 
语言 。 因 此 ， 给 定 能 够 识别 两 个 不 同 的 正则 语言 的 自动 机 ， 我 们 可 以 机 械 地 构造 一 个 恰好 识别 
这 两 个 语言 的 交 的 自动 机 。 由 于 这 样 构造 出 来 的 自动 机 可 能 比 给 定 的 两 个 自动 机 的 状态 都 多 ， 
因此 这 种 “封闭 性 ”可 以 作为 一 种 构造 复杂 的 自动 机 的 工具 。2.1 节 中 用 很 实质 的 方式 使 用 了 这 
种 构造 。 

正则 语言 的 另 一 类 很 重要 的 性 质 是 “判定 性 质 "， 通 过 学 习 这 些 性 质 使 得 我 们 能 够 给 出 用 来 
回答 关于 自动 机 的 重要 的 问题 的 算法 。 一 个 核心 的 例子 是 用 来 判定 两 个 自动 机 是 否定 义 了 同样 
语言 的 算法 。 我 们 判定 该 问题 的 能 力 使 得 我 们 能 够 把 自动 机 “最 小 化 "， 也 就 是 说 ， 找 到 一 个 自 
动机 ， 它 等 价 于 某 个 给 定 的 自动 机 ， 并 且 使 它 有 尽 可 能 少 的 状态 。 这 是 一 个 数 十 年 里 在 开关 电 
路 的 设计 方面 的 重要 问题 ， 原 因 是 电路 的 成 本 (电路 所 占有 的 芯片 面积 ) 趋向 于 随 着 电路 所 实 
现 的 自动 机 的 状态 数 的 减少 而 减少 。 


4.1 证 明 语言 的 非 正 则 性 


我 们 已 经 确认 正则 语言 类 至 少 有 四 种 不 同 的 描述 方法 ， 它 们 分 别 是 DFA 所 接受 的 语言 类 、 
NFA 所 接受 的 语言 类 、e-NFA 所 接受 的 语言 类 以 及 正则 表达 式 所 定义 的 语言 类 . 

然而 并 不 是 所 有 的 语言 都 是 正则 语言 。 在 本 节 中 ， 我 们 将 会 介绍 一 个 强 有 力 的 技术 ， 叫 作 
“ 泵 引 理 "， 它 能 够 证 明 某 个 语言 不 是 正则 的 。 接 着 我 们 会 给 一 些 非 正 则 语言 的 例子 。 在 42 节 中 
我 们 将 会 看 到 怎样 先后 使 用 泵 引 理 和 正则 语言 的 封闭 性 来 证 明 另 外 一 些 语言 不 是 正则 的 。 


4.1.1 正则 语言 的 泵 引 理 


我 们 考虑 语言 Lor = {0"1" 1 n> 1}。 这 个 语言 包含 所 有 如 下 形式 的 串 :701, 0011, 000111 等 等 ， 
也 就 是 有 一 个 或 多 个 0 后 面 跟着 相同 数目 的 1 所 构成 的 串 。 我 们 将 要 证 明 忆 不 是 正则 语言 。 一 个 
靠 直 觉得 到 的 证 据 是 : 如 果 Lo, 是 正则 的 ， 那 么 Za 就 是 某 个 DEA 4 的 语言 。 该 自动 机 有 若干 个 状 
态 ， 比 如 说 有 k 个 状态 。 想 像 一 下 ， 这 个 自动 机 接收 由 k 个 0 组 成 的 串 作为 输入 。 这 个 自动 机 处 在 
分 别 消耗 了 输入 的 k + 1 个 不 同 前 组 e, 0, 00, …, O 后 的 某 个 状态 ， 因 为 它 总 共 只 有 k 个 不 同 状态 ， 
所 以 由 铝 巢 原理 可 知 在 它 读 人 了 其 中 两 个 不 同 的 前 缀 比如 0 和 0' 之 后 A 一 定 处 在 同一 个 状态 g。 

然而 ,假设 在 读 和 信 了 i 或 者 /个 0 之 后 ， 自 动机 4 开始 接收 1 作为 输入 。 当 接收 了 i 个 1 之 后 ， 如 
果 前 面 它 接收 了 i 个 9， 那 么 它 必须 接受 ， 否则 ， 如 果 前 面 它 接收 了 j 个 0， 它 必须 不 接受 。 因 为 在 
开始 读 入 1 时 它 处 在 的 状态 是 9， 因 此 它 无 法 “ 记 住 ”刚才 接收 的 是 ;个 0 还 是 j 个 0， 因 此 我 们 可 以 
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“TBF” AMT CIR: 接受 本 不 该 接受 的 或 者 没有 接受 本 应 该 接受 的 。 
上 面 的 论述 是 非 形式 化 的 ， 但 我 们 可 以 使 它 更 加 准确 。 但 是 ， 可 以 使 用 一 个 更 一 般 的 结果 
来 得 到 与 上 面 同样 的 结论 ， 即 语言 Lo 不 是 正则 的 。 这 个 更 一 般 的 结果 如 下 。 


定理 4.1 (正则 语言 的 又 引 理 ) 设 L 是 正则 语言 ， 则 存在 与 L 相 关 的 常数 满足 ， 对 于 任何 L 
中 的 串 w， 如 果 Iwl>n， 则 我 们 就 能 够 把 w 打 断 为 三 个 串 w= xyz 使 得 

Ly #8, 

2.byl <n, 

3; 对 于 所 有 的 k>0， 串 心 尼 也 属于 L。 
也 就 是 说 ， 我 们 总 能 够 在 离 » 的 开始 处 不 太 远 的 地 方 找到 一 个 非 空 的 串 y， 然 后 可 以 把 它 作 
Ay FR”, 也 就 是 说 ,重复 任意 多 次 ,或 者 去 掉 它 (k = 0 的 情况 )， 而 所 得 到 的 结果 串 仍然 


MFL. 
证 明 ”假设 L 是 正则 的 。 那 么 对 于 某 个 DFA A, L = L(4)。 假 设 A 有 n 个 状态 。 考 虑 长 度 不 小 
于 "的 串 wi=iaigi any 其 中 四 >n 且 每 个 ai 都 是 输入 符号 。 对 于 i = 0, 1,…， 7 定义 状态 pi 


H Ôq aja; ia) y 其 中 5 是 4 的 转移 函数 ，g 是 4 的 初始 符号 。 也 就 是 说 ， Pi 是 当 A 读 入 了 w 的 前 i 
个 符号 后 所 处 的 状态 。 注 意 po = go. 

由 镶 集 原理 ,对 于 i= 0, 1,…;n， 相 应 的 n+1 个 pi 不 可 能 全 都 不 同 ， 因 为 总 共 只 有 n 个 不 同 的 
状态 避 因 此， 我 们 能 够 找到 两 个 不 同 的 整数 ;和 j， 满 足 0 < i<j < n， 使 得 pi=pj。 现 在 ， 我 们 就 
可 以 把 w 打 断 为 w =xyz 如 下 : 

1.x= aara 

2.7=G+10+2 pan 

3.2 = dys 1042" 

也 就 是 说 ，x 把 我 们 带 到 pi 一 次 ，y 把 我 们 带 离 p 后 再 带 回 p，( 因 为 p, 也 就 是 pj)， 然 后 z 是 w 剩 
下 的 部 分 。 这 些 串 和 状态 之 间 的 关系 如 图 4-1 所 示 。 注 意 ， 在 ; = 0 的 情况 ，x 可 以 为 空 。 同 样 如 果 
Janam, AAAS. Aili, YRS, AME. 





AD 
Dk 
图 4-1 每 个 至 少 与 状态 数 一 样 长 的 串 一 定 会 导致 一 个 重复 的 状态 

现在 ,考虑 当 自 动机 A 接收 输入 wz 时 所 发 生 的 事 ， 其 中 k 是 任何 大 于 或 等 于 0 的 整数 。 如 果 
= 0， 则 该 自动 机 从 初始 状态 qo (Bp) 出发， 读 入 输入 * 后 到 达 状 态 p,， 因 为 pi 世 就 是 声 ， 所 以 
4 一 定 在 读 入 输入 z 后 从 p; 到 达 图 4-1 中 的 接受 状态 ， 因 此 4 接受 xz。 

如 果 k > 0， 则 4 在 输入 x 下 从 gqo 走 到 p;， 然后 在 输入 汪 下 从 pi 到 pi 转 上 Kk 圈 ， 然 后 在 输入 z 下 走 
到 接受 状态 。 因 此 ， 对 于 任何 E>0，xoz 也 被 4 所 接受 ， 即 yz 属于 L。 站 





Download at http://www.pin5i.com/ 


EWES EA 87 





412 泵 引 理 的 应 用 


我 们 来 看 一 些 如 何 应 用 泵 引 理 的 例子 。 在 每 个 例子 中 ， 我 们 会 给 出 一 个 语言 ， 然 后 用 泵 引 
理 来 证 明 该 语言 不 是 正则 的 。 





把 泵 引 理 当 作 对 抗 赛 


回忆 一 下 在 1.2.3 节 中 的 讨论 ， 当 时 我 们 指出 : 如 果 一 个 定理 的 陈述 中 含有 多 个 交替 的 
“所 有 ”和 “存在 ”量词 ， 那 么 我 们 可 以 把 该 定理 看 作 一 场 在 两 个 选手 之 间 的 比赛 。 泵 引 
理 就 是 这 种 形式 的 定理 的 一 个 很 重要 的 例子 ， 原 因 是 它 的 确 包含 了 四 个 不 同 的 量词 :“ 对 
于 所 有 正则 语言 Z， 存 在 "满足 : 对 于 所 有 Z 中 的 串 w， 如 果 Iwl> nm， 那么 存在 zyz 等 于 w， 使 
得 ……。” 下 面 我 们 将 看 到 把 泵 引 理 当 作对 抗 赛 的 应 用 : 

1. 选手 1 选择 一 个 想 要 证 明 非 正则 的 语言 L。 

2. 选手 ?选择 x， 但 选手 1 并 不 知道 n 是 什么 ， 因 此 选手 1 必须 考虑 任何 可 能 的 n。 

3. 选手 1 选择 w， 它 可 以 与 相关， 同时 长 度 至 少 是 n。 

4. 选 手 2 把 w 分 成 x, y 和 z， 同 时 满足 泵 引 理 中 规定 的 限制 条 件 ，y 关 以 及 lxyl<n。 并 且 

选手 2 并 不 需要 把 x,y 和 z 是 什么 告诉 选手 1， 虽 然 它 们 必须 满足 限制 条 件 。 

5. 如 果 选 手 1 能 够 选择 k 使 得 9#z 不 属于 坟 ， 其 中 K 可 以 是 m x,y 和 z 的 函数 ， 那 么 他 就 “高 

得 ”了 这 场 比赛 。 











例 4.2 下面 来 证 明 包含 相同 数目 的 0 和 1 (无 论 按照 何 种 顺序 ) 的 所 有 串 所 构成 的 语言 Le 不 
是 正则 的 。 根 据 关于 “把 泵 引 理 当 作对 抗 赛 ”的 方 框 中 所 描述 的 “二 人 比赛 ”的 形式 ， 我 方 将 
作为 选手 1， 必 须 对 付 选手 ?所 做 的 任何 选择 。 假 设 根据 泵 引 理 ， 如 果 Le 是 正则 的 ， 则 "是 必然 存 
在 的 那个 常数 ， 即 “选手 2” 选 择 了 n。 我 方 选择 w = 0"1"， 也 就 是 说 ， 选 择 n 个 0 后 面 跟着 n 个 1， 
这 个 串 肯定 属于 er。 

现在 ,“ 选 手 2” 把 我 们 的 w 分 成 yz。 我 们 只 知道 y 夫 Ee， 以 及 lyl<n。 然 而 ， 这 些 信息 是 非常 
有 用 的 ， 我 们 可 以 “赢得 ”这 场 比 赛 ， 方 法 如 下 。 因 为 tyl<n， 并 且 xy 是 处 在 w 中 前 半 段 ， 所 以 
可 知 x 和 y 都 只 由 0 构成 。 泵 引 理 说 ; 如 果 Les 是 正则 的 话 ， 那 么 x 属于 Ls。 这 是 泵 引 理 中 k= 0 时 的 
结论 。。 然 而 ， 尺 有 n 个 1， 因 为 w 中 所 有 的 1 都 在 中。 但 是 坟 中 的 0 不 到 n 个 ， 因 为 去 掉 耶 y 中 的 0， 
而 由 ?5 可 知 在 x 和 z 中 总 共有 不 超过 n 一 1 个 0。 因此， 只 要 假设 La 是 正则 语言 ， 就 能 证 明 一 个 已 
知 错误 的 事实 ， 即 xz 属于 Lv。 这 样 就 用 反 证 法 证 明了 Le 不 是 正则 语言 的 事实 。 口 


例 4.3 ”证 明 只 由 1 构成 且 长 度 为 素数 的 所 有 串 所 构成 的 语言 rr" 不 是 正则 语言 。 假 设 它 是 ， 
那么 存在 满足 泵 引 理 的 条 件 的 常数 n， 考 虑 某 个 素数 p>n + 2 (这 样 的 素数 必定 存在 ， 因 为 有 无 
穷 多 个 素数 )， 设 w = 1?。 

根据 和 泵 引 理 ， 我 们 可 以 把 w 打 断 为 w = xyz， 且 满足 ye 和 bxyl<n。 设 byl =m, Muzi = p—m, 
现在 考虑 串 D9”"z， 由 泵 引 理 知 如 果真 是 正则 语言 ， 那 么 该 串 一 定 属于 Le。 然而 ， 


O 在 下 面 要 注意 ， 如 果 选 取 t= 2， 或 者 任何 不 是 ! 的 任何 值 *， 也 都 可 以 完成 证 明 。 
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aye" al = brl + (p—m)lyl = p—m + (p—m)m = (m + 1)(p — m) 

这 就 是 说 bor-" zl 不 太 可 能 是 素数 ， 因 为 它 有 两 个 因子 m + 1 和 p 一 m。 不 过 我 们 还 是 需要 验证 

这 两 个 因子 都 不 是 1， 否 则 (m + D)p 一 四 还 有 可 能 是 素数 。 由 过 s 可 知 m> 1， 因 而 可 知 m+ 1 > 1。 
同样 由 m= byI<bol<n 可 知 m<n， 又 由 所 选 的 p 满 足 p>n+2 可 知 p 一 m > 1， 因 此 , p—m>2, 

我 们 再 一 次 地 通过 首先 假设 所 讨论 的 语言 是 正则 的 ， 接 着 推出 某 个 本 不 属于 该 语言 的 串 根 

据 泵 引 理 却 必须 属于 该 语言 的 矛盾 ， 从 而 得 出 7x, 不 是 正则 语言 的 结论 。 o 


413 习题 


习题 4.1.1 证 明 下 列 语言 都 不 是 正则 的 : 
a) {0% "12>1}。 该 语言 中 的 串 是 由 若干 个 0 后 面 跟着 相同 数目 的 1 构成 的 ， 也 就 是 我 们 在 本 
节 开 始 时 非 形 式 化 地 考虑 的 语言 Ca。 在 这 里 ， 你 应 该 用 泵 引 理 来 证 明 。 
b) 所 有 括号 匹配 的 串 的 集合 。 这 些 串 都 由 “(” 和 “)” 构 成 ， 并 且 都 可 能 出 现在 正确 形式 
的 算术 表达 式 中 。 
*c) {0"10"In>1}, 
d) {O"l"2"1m 和 "是 任意 整数 }。 
e) {0"l" In<m}, 
f) {01 In> 1}, 
1 习题 4.1.2 证 明 下 列 语言 都 不 是 正则 的 : 
*a) {0"1n 是 完全 平方 数 }。 
b) {0"1n 是 完全 立方 数 }。 
c) {0"1n 是 2 的 短 }。 
d) 由 0 和 1 构成 的 其 长 度 是 完全 平方 数 的 串 的 集合 。 
e) 由 0 和 1 构成 的 ww 形式 的 串 的 集合 ， 也 就 是 某 个 串 重复 的 串 集合 。 
人 ) 由 0 和 1 构成 的 ww 形式 的 串 的 集合 ,也 就 是 由 某 个 串 后 面 跟着 它 的 反 转 所 构成 的 串 的 集合 。 
(一 个 串 的 逆 的 形式 化 定义 见 4.2.2 节 。) 
D 由 0 和 1 构成 的 ww 形式 的 串 的 集合 ， 其 中 丈 是 把 w 中 所 有 的 0 都 换 成 1 同时 把 所 有 的 1 都 换 
成 0 而 得 到 的 串 ， 例 如 ，011 = 100 ， 因 此 011100 是 该 语言 中 的 一 个 串 。 
h) 所 有 由 0 和 1 构成 的 w1" 形 式 的 串 的 集合 ， 其 中 w 是 由 0 和 1 构成 的 长 度 为 n 的 串 。 
N 34.1.3 ”证明 下 列 语言 都 不 是 正则 的 : 
a) 所 有 满足 以 下 条 件 的 串 的 集合 : 由 0 和 1 构成 ， 开 头 的 是 1， 并 且 当 我 们 把 该 中 看 作 是 一 个 
整数 时 该 整数 是 一 个 素数 。 
b) 所 有 满足 以 下 条 件 的 0 形式 的 串 的 集合 : i 和 和 j 的 最 大 公约 数 是 1。 
! 习题 4.1.4 ” 当 我 们 想 要 对 一 个 正则 语言 使 用 和 泵 引 理 时 ,“ 对 手 获胜 "， 所 以 我 们 无 法 完成 证 
明 过 程 。 给 出 当 我 们 选择 如 下 语言 作为 L 时 出 问题 的 地 方 : 
*a) 空 集 。 
* b) {00, 11}, 
* c) (00 + 11)", 
doro, 
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4.2 正则 语言 的 封闭 性 


在 本 节 中 ， 我 们 将 会 证 明 几 个 如 下 形式 的 定理 :“ 如 果 某 些 语言 是 正则 的 ， 并 且 某 个 语言 L 
是 从 它们 出 发 经 过 某 些 运算 (例如: 7 是 两 个 正则 语言 的 并 ) 所 得 到 的 语言 ,那么 L 也 是 正则 的 ”。 
这 些 定理 也 叫 作 正 则 语言 的 封闭 性 ， 原 因 是 它们 指出 了 正则 语言 类 在 定理 中 提 到 的 运算 下 是 封 
闭 的 。 封 闭 性 表达 了 如 下 思想 ， 只 要 某 个 (或 某 些 ) 语言 是 正则 的 ， 那 么 某 些 相关 的 语言 也 是 
正则 的 。 关 于 这 些 封闭 性 的 证 明 过 程 也 是 很 有 趣 的 例证 ， 它 们 展示 了 正则 语言 的 不 同 的 等 价 表 
示 法 (自动 机 和 正则 表达 式 ) 在 我 们 理解 正则 语言 类 时 起 到 的 相辅相成 的 作用 ， 原 因 是 每 一 种 
表示 法 都 会 在 证 明 某 个 封闭 性 时 远 比 其 他 的 表示 法 方便 好 用 。 下 面 是 正则 语言 的 一 些 主要 的 圭 
闭 性 ， 

1. 两 个 正则 语言 的 并 是 正则 的 。 

2. 两 个 正则 语言 的 交 是 正则 的 。 

3. 正则 语言 的 补 是 正则 的 。 

4. 两 个 正则 语言 的 差 是 正则 的 。 

5. 正则 语言 的 反 转 是 正则 的 。 

6. 正 则 语言 的 闭 包 〈 星 ) 是 正则 的 。 

7. 几 个 正则 语言 的 连接 是 正则 的 。 

8. 正则 语言 的 同 态 〈 用 串 来 代替 符号 ) 是 正则 的 。 

9. 正则 语言 的 逆 同 态 是 正则 的 。 


4.2.1 正则 语言 在 布尔 运算 下 的 封闭 性 


首先 的 三 个 封闭 性 是 布尔 运算 : 并 ， 交 和 补 。 
1. 如果 L 和 M 是 字母 表 三 上 的 语言 ， 则 ZUM 是 由 所 有 属于 Z 或 属于 M 或 同时 属于 两 者 的 串 构 
成 的 语言 。 

2. 如 果 L 和 M 是 字母 表 上 的 语言 ， 则 LNM 是 由 所 有 同时 属于 L 和 M 的 捉 构 成 的 语言 。 

3. 如 果 L 是 字母 表 上 的 语言 ， 则 上 的 补 工 是 由 所 有 集合 3" 中 不 属于 L 的 捉 构成 的 语言 。 

正则 语言 在 以 上 三 种 布尔 运算 下 都 是 封 闲 的 。 然 而 三 者 的 证 明 却 采用 非常 不 同 的 方法 ， 下 
面 我 们 将 会 分 别 看 到 。 

4.2.1.1 并 运算 的 封闭 性 


定理 4.4 ”如 果 L 和 M 都 是 正则 语言 ， 则 LUM 也 是 。 
证 明 ”该 定理 的 证 明 很 简单 。 由 于 L 和 MM 都 是 正则 的 ， 所 以 它们 都 有 正则 表达 式 EML = 
KR),M= LS)。 则 由 正则 表达 式 的 + 运算 符 的 定义 可 知 LUM = LR + 5)。 o 


421.2 补 运算 的 封闭 性 
用 语言 的 正则 表达 式 表示 法 来 证 明 关于 并 运算 的 定理 是 很 容易 的 。 然 而 ， 接 下 来 要 考虑 的 
运算 是 补 运 算 。 你 知道 怎样 把 一 个 正则 表达 式 变 成 另外 一 个 定义 了 它 的 补 语言 的 正则 表达 式 
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吗 ? 其 实 我 们 也 不 知道 。 不 过 ， 事 实 上 这 是 可 以 做 到 的 ， 因 为 在 定理 45 中 我 们 将 会 看 到 从 一 个 
DFA 出 发 来 构造 另 一 个 接受 补 语言 的 DFA 是 很 容易 的 。 因 此 ， 从 一 个 正则 表达 式 出 发 ， 我 们 可 
以 以 如 下 的 方式 来 找到 其 补 语言 的 正则 表达 式 : 

1. 把 该 正则 表达 式 转换 一 个 eNFA。 

2. 用 子 集 构造 法 把 该 e-NFA 转 换 成 一 个 DFA。 

3. 把 该 DFA 的 接受 状态 取 补 。 

4. 把 取 补 后 的 DFA 用 3.2.1 节 或 3.2.2 节 中 的 构造 方法 来 变 回 成 为 一 个 正则 表达 式 。 





假如 语言 的 字母 表 不 同 会 怎样 


当 我 们 对 两 个 语言 L 和 M 取 并 和 交 时 ， 它 们 可 能 有 着 不 同 的 字母 表 。 例 如 ， 有 可 
能 有 Sfa, 引 "而 LSfb,c,d}* 。 然 而 ， 如 果 语 言 Z 由 > 中 的 符号 组 成 的 串 构成 ， 那 么 我 们 也 
可 以 把 L 看 作 以 任何 2 的 超 集 作为 字母 表 上 的 语言 。 这 样 ， 比 如 我 们 可 以 把 志和 万 都 看 作 字 
母 表 {a, b, c,d} 上 的 语言 。 而 Li 中 的 申 不 含 符号 c 和 d 这 件 事情 其 实 是 无 关 的 ，L 的 串 中 不 含 
4 也 同样 。 

类 似 地 ， 当 对 于 某 个 字母 表 2 来 取 语 言 [ 的 补 时 ，Z 是 3" 的 一 个 子 集合 ， 还 可 以 选择 
相对 于 某 个 字母 表 2 取 补 ， 2 是 了 的 超 集 。 如 果 这 样 做 ， 那 么 所 取 到 的 L 的 补 就 是 了 :一 
L, REL TE 2 的 补 (的 所 有 串 中 ) 包括 了 所 有 这 样 的 2" 中 的 串 : 该 串 中 至 少 有 一 
个 属于 32 但 不 属于 Ds 的 符号 。 假 如 我 们 对 于 1 取 L 的 补 的 话 ， 那 么 所 有 包括 2 一 2 中 
的 符号 的 串 就 都 不 在 工 中 了 。 因 此 ， 为 了 更 加 严格 ， 我 们 应 该 在 取 补 时 明确 指出 所 对 应 的 
字母 表 。 然 而 ， 有 时 所 指 的 字母 表 是 很 显而易见 的 ， 比 如 是 由 一 个 自动 机 定义 的 ,而 自 
动机 的 描述 中 会 包含 字母 表 。 因 此 ， 我 们 经 常会 直接 取 “ 补 ”而 不 明确 指出 字母 表 。 








正则 运算 下 的 封闭 性 


证 明正 则 语言 在 并 运算 下 是 封闭 的 异常 简单 ， 原 因 是 并 运算 是 定义 正则 表达 式 的 三 个 
运算 之 一 。 定 理 4.4 中 的 思想 同样 可 以 用 于 封闭 性 运算 和 连接 运算 ， 也 就 是 说 ; 

。 如 果 L 和 M 都 是 正则 语言 ， 则 LM 也 是 。 

。 如 果 L 是 正则 语言 ， 则 上 也 是 。 











定理 4.5 如 果 L 是 字母 表 3 上 的 正则 语言 ， 则 五 = 了 "一 也 是 正则 语言 . 

证 明 EL =LA), 其 中 4=(Q, ,6,qo, 下 是 菜 个 DEA。 则 工 =L(B)， 其 中 B 是 DFA(Q@, X, ô, 
qo, 2 一 月 。 也 就 是 说 ，B 和 4 很 类 似 ， 但 是 4 的 接受 状态 都 是 B 的 非 接受 状态 ， 反 之 亦 然 。 因 此 
属于 L(B) 当 且 仅 当 6(q,,w) 属 于 Q 一 F， 而 后 者 成 立 当 且 仅 当 w 不 属于 L(A)。 口 


注意 在 上 面 的 证 明 中 8(qu,w) 总 是 某 个 状态 这 点 很 重要 ， 也 就 是 说 ，A 中 没有 缺少 的 转移 。 
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如 果 有 ， 某 些 串 就 有 可 能 既 不 能 导致 4 进入 接受 状态 ， 也 不 能 导致 4 进入 非 接受 状态 ， 这 样 就 会 
有 某 些 串 由 于 既 不 属于 L(4) 也 不 属于 L(B) 而 遗漏 。 幸 运 的 是 ， 我 们 对 于 DFA 的 定义 是 在 每 个 状态 
时 对 于 了 中 的 每 个 符号 都 有 一 个 转移 ， 因 此 每 个 串 就 会 或 者 导致 4 进入 F 中 的 状态 ， 或 者 导致 4 
进入 2 一 F 中 的 状态 。 


例 4.6 ” 设 4 是 图 2-14 中 的 自动 机 。 记 起 DEA 4 恰好 接受 所 有 以 01 结 是 的 0 和 1 组 成 的 囊 ， 用 正 
则 表达 式 的 形式 来 描述 就 是 L(A) = (0 + 1D)"01。 因 此 L(4) 的 补 就 是 所 有 不 以 01 结 尾 的 0 和 1 组 成 的 
串 。 图 4-2 给 出 了 {0, 1}" 一 L(4) 的 自动 机 ， 它 与 图 2-14 基 本 相同 ， 但 是 把 接受 状态 变 为 非 接受 状 
态 ， 再 把 两 个 非 接受 状态 变 为 接受 状态 。 o 


rtp 


图 4-2 接受 语言 (0 + 1701 的 补 的 DFA 


Start 








例 4.7 在 本 例 中 ， 我 们 将 用 定理 4.5 来 证 明 某 个 特定 的 语言 不 是 正则 的 。 在 例 4.2 中 我 们 证 明 
了 由 相同 个 数 的 0 和 1 构成 的 串 组 成 的 语言 Ler 不 是 正则 的 ， 该 证 明 直接 使 用 了 泵 引 理 。 现 在 考虑 
由 不 同 个 数 的 0 和 1 构成 的 串 组 成 的 语言 M。 

很 难 直接 使 用 泵 引 理 证 明 W 不 是 正则 的 。 直 观 地 ， 如 果 我 们 从 某 个 M 中 的 串 w 出 发 ， 把 它 打 
断 为 w = xz， 并 且 把 > 当 作 “ 和 泵 "， 我 们 发 现 ? 本 身 可 能 是 某 个 像 01 亿 的 由 相同 个 数 的 0 和 和 1 组 成 的 
串 。 如 果 这 样 的 话 ， 就 不 可 能 存在 k 使 得 9#z 中 有 不 同 个 数 的 0 和 1， 因 为 xyz 中 的 0 和 1 的 数目 不 同 ， 
而 当 我 们 把 y 当 作 “ 泵 ”时 0 和 1 的 个 数 的 改变 量 总 是 相等 的 。 因 此 ， 我 们 永远 无 法 使 用 泵 引 理 来 
得 出 与 W 是 正则 的 假设 相 矛 盾 的 结论 。 

然而 ，M 确 实 不 是 正则 的 。 原 因 是 M = Lw。 因 为 补 的 补 就 是 原来 的 集合 ， 因 此 得 出 L.。= 
及 。 如 果 M 是 正则 的 ， 则 根据 定理 4.5 可 知 Le 也 是 正则 的 。 但 是 我 们 已 经 知道 Les 不 是 正则 的 ， 
因此 我 们 就 用 反 证 法 证 明了 M 也 不 是 正则 的 。 a 


4213 交 运 算 的 封闭 性 
现在 让 我 们 来 考虑 两 个 正则 语言 的 交 。 实 际 上 我 们 只 需要 做 很 少 的 事情 ， 因 为 这 三 个 布尔 
运算 不 是 相互 无 关 的 。 一 旦 我 们 有 办 法 来 完成 补 和 并 ， 我 们 就 可 以 用 下 面 的 恒等式 来 获得 语言 L 
和 M 的 交 : 
LAM=LUM (41) 
一 般 而 言 ， 两 个 集合 的 交 就 是 不 在 这 两 个 集合 中 的 任何 一 个 的 补 集中 的 元 素 的 集合 。 这 个 事实 ,也 
就 是 等 式 (4-D 中 所 说 的 ， 是 德 摩根 律 之 一 。 另 外 一 条 是 把 其 中 的 交 和 并 互 换 ; BLUM =O. 
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然而 ， 我 们 也 可 以 直接 构造 两 个 正则 语言 的 交 的 DEA。 这 个 构造 方法 本 质 上 是 并 行 地 运行 
两 个 DEA， 该 方法 本 身 是 很 有 用 的 。 例 如 ， 我 们 可 以 用 它 来 构造 图 2-3 中 的 自动 机 ， 它 可 以 表示 
两 个 参与 者 (银行 和 商店 ) 正在 做 的 事情 的 “乘积 "。 在 下 面 的 定理 中 我 们 将 会 形式 化 地 介绍 这 
种 乘积 构造 法 。 


定理 4.8 如 果 L 和 M 都 是 正则 语言 ， 则 LNM 也 是 。 

证 明 设 L 和 M 分 别 是 自动 机 A = (Qe, E, br, qi,Fi) 和 Au= (Qu, E, Ou. qu, Fu) 的 语言 。 注 意 ， 
我 们 假定 这 两 个 自动 机 的 字母 表 是 相同 的 ,也 就 是 说 ,如果 L 和 M 的 字母 表 不 同 则 5 是 它们 的 并 。 
乘积 构造 法 实际 上 不 仅 能 够 用 于 DFA， 也 能 用 于 NFA， 但 为 了 简单 起 见 ， 我 们 假设 A 和 Aw 都 是 
DFA, 

对 于 ZnM， 我 们 将 要 构造 一 个 自动 机 4 来 同时 模拟 4x 和 Aw。A 中 的 每 个 状态 是 一 个 状态 对 ， 
其 中 第 一 个 是 4 中 的 状态 ， 第 二 个 是 4w 中 的 状态 。 接 着 设计 4 的 转移 ， 假 设 4 处 在 状态 ,9) (其 
中 p 是 4 的 状态 ，9 是 4w 的 状态 ) 。 如 果 4 是 输入 符号 ， 我 们 看 4z 对 于 输入 4 做 什么 动作 ， 比 如 它 
转 到 状态 s。 我 们 再 看 A 对 于 输入 A 做 什么 动作 ， 比 如 它 转 到 状态 :。 那 么 4 的 下 一 个 状态 就 是 (， 
D。 就 像 这样 ，4 同 时 模拟 4 和 4w 的 效果 。 图 4-3 简 单 勾画 出 了 这 一 思想 。 


输入 a 





接受 











图 4-3 一 个 自动 机 模拟 另外 的 两 个 自动 机 ， 并 且 当 且 仅 当 它 们 都 接受 时 接受 


剩 下 的 细节 部 分 就 很 简单 了 。A4 的 初始 状态 就 是 由 A 和 4w 的 初始 状态 组 成 的 对 ， 由 于 我 们 
想 要 当 且 仅 当 两 个 自动 机 都 接受 时 接受 ， 所 以 我 们 把 所 有 如 下 形式 的 对 (p,q) 选 出 来 作为 4 的 接 
受 状态 : p 是 4 的 接受 状态 ，9 是 hw 的 接受 状态 。 形 式 化 地 定义 如 下 ; 
A = (Q, xQ,,2,6,(9,,9u),F x Fy) 

其 中 5(p,9),a)= (6.(p,a), ulg, @)) 0 

AT FABIA HALA) = L(A )NL(Au )， 首 先 注意 到 很 容易 通过 对 Iwl 进 行 归纳 来 证 
W 6((q.,qw),w) = (Ô, (q, W), (Gu W) 。 但 是 4 接受 w 当 且 仅 当 ÔC, du) w) 是 一 对 接受 状态 。 也 
就 是 说 ，6,(q,,w) 必 须 属于 Fi 并且 5,(q,,w) 必须 属于 Fu。 换 句 话说 ，w 被 4 接受 当 且 仅 当 它 同时 
被 4 和 4 接受 。 因 此 4 接受 5 有 IM 的 交 。 o 
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例 4.9 在 图 4-4 中 可 以 看 到 两 个 DFA。 图 4-4a 中 的 自动 机 接受 所 有 包含 0 的 串 ， 而 图 4-4b 中 的 
自动 机 接受 所 有 包含 1 的 串 。 图 4-4c 给 出 了 这 两 个 自动 机 的 乘积 。 它 的 状态 是 由 图 4-4a 和 图 4-4b 
中 的 状态 组 成 的 对 。 





图 4-4 乘积 构造 法 


很 容易 证 明 该 自动 机 能 够 接受 前 两 个 语言 的 交 : 同时 含有 0 和 1 的 串 。 因 为 状态 pr 代表 初始 
情况 ， 此 时 我 们 还 没有 看 到 0 或 者 1。 状 态 gr 意 味 着 我 们 只 看 到 了 0， 而 状态 ps 意味 着 我 们 只 看 到 
了 0。 接 受 状态 gs 表示 我 们 已 经 看 到 了 0 和 1 的 情况 。 口 


4214 差 运算 的 封闭 性 

还 有 第 四 个 经 常用 于 集合 的 运算 ， 它 是 与 布尔 运算 有 关 的 运算 : 集合 的 差 。 用 在 语言 中 就 
是 L 一 M 是 L 和 M 的 差 ， 它 是 所 有 属于 语言 但 不 属于 语言 M 的 串 的 集合 。 正 则 语言 在 该 运算 下 仍 
然 封 闭 ， 并 且 该 结论 的 证 明 可 以 很 容易 通过 使 用 前 面 证 明了 的 定理 来 完成 。 


定理 4.10 如 果 L 和 M 是 正则 语言 ， 则 一 M 也 是 正则 语言 。 
证 明 注意 到 LM = LN 斩 。 根 据 定理 4.5 可 知 下 是 正则 的 ， iir: 8 可 知 LN MM 是 
正则 的 。 因 此 L 一 M 也 是 正则 的 。 口 


4.2.2 Be 


一 个 串 ai a2… a 的 反 转 是 把 该 囊 反 过 来 写 ， 即 44s-1… aw。 我 们 用 wm 表示 串 w 的 反 转 。 因 此 
0010*=0100, £ =£, 

一 个 语言 的 反 转 记 作 L*， 是 指 由 所 有 该 语言 中 的 串 的 反 转 所 组 成 的 语言 。 例 如 ， 如 果 L = 
{001, 10,111}, MZ*={100,01, 111}, 

反 转 是 另 一 个 保持 正则 语言 的 运算 ， 也 就 是 说 ， 如 果 L 是 一 个 正则 语言 ， 那 么 Lx 也是。 有 两 
种 简单 的 证 明 方法 ， 一 种 基于 自动 机 ， 另 一 种 基于 正则 表达 式 。 我 们 非 形式 地 给 出 基于 自动 机 
的 证 明 ， 如 果 读 者 有 兴趣 可 以 自己 给 出 证 明 的 细节 。 接 着 我 们 用 正则 表达 式 形式 化 地 证 明 这 个 
定理 。 

给 定 一 个 语言 也 就 是 给 定 了 某 个 有 穷 自动 机 的 L(4)， 也 许 该 自动 机 是 非 确定 性 的 或 者 有 s 
转移 的 ， 我 们 通过 下 列 方法 构造 1* 的 自动 机 : 

1 把 4 的 状态 转移 图 中 的 所 有 箭 弧 反 转 。 








138| 














139| 








Download at http://www.pinSi.com/ 


94 HAF 





2. 新 自动 机 惟一 的 接受 状态 是 4 的 初始 状态 。 

3. 创建 一 个 新 的 初始 状态 mo， 同 时 从 该 状态 出 发 到 所 有 4 的 接受 状态 都 建立 一 个 e 转 移 。 

这 样 所 得 的 结果 是 一 个 “ 反 转 过 来 ”模拟 4 的 自动 机 ， 并 且 它 接受 一 个 串 w 当 且 仅 当 4 接 受 
ws。 现 在 ， 我 们 形式 化 地 证 明 反 转 定理 。 


定理 4.11 如 果 L 是 正则 语言 ， 则 L* 也 是 。 

WEAR 设 L 由 正则 表达 式 E 定 义 。 该 定理 的 证 明 过 程 是 对 E 的 大 小 进行 归纳 。 我 们 将 会 证 明 存 
在 另 一 个 正则 表达 式 E* 使 得 L(E*) = (L(E)*， 换 句 话说 ，E* 的 语言 正 是 E 的 语言 的 反 转 。 

Ei: RERE ORAR Sa, MERMERE. WRAL, BATA Le} = {e}, D =Ø, 
{a}"= {a}. 

归纳 : 根据 E 的 形式 ， 共 分 以 下 三 种 情况 : 

1.E =E + Er, WE = E*+ Es， 理由 是 两 个 语言 的 并 的 反 转 可 以 通过 分 别 计算 这 两 个 语言 

的 反 转 再 把 所 得 的 语言 取 并 来 得 到 。 

2.E= EEr, WE = ES E* ,注意 我 们 在 分 别 取 这 两 个 语言 的 反 转 的 同时 交换 了 这 两 个 语言 
的 顺序 。 例 如 ， 如 果 L(E1) = {01, 111} 并 且 L(E;) = {00, 10}, MILE: E») = {0100, 0110, 
11100, 11110}， 该 语言 的 反 转 是 

{0010,0110,00111,01111} 
如 果 我 们 把 两 个 语言 L(E;) 和 L(E) 的 反 转 按 该 顺序 连接 起 来 ， 就 会 得 到 
{00, 01}{10, 111} = {0010, 00111, 0110, 01111} 

恰好 就 是 语言 (L(E1E2))*。 一 般 而 言 ， 如 果 L(E) 中 的 一 个 串 w 是 L(E1) 中 的 串 w, 和 LE2) 中 的 
串 wa 的 连接 ， 则 ws = we wh, 
E= Eis WE =( Er)*。 理 由 是 任何 UE) 中 的 串 w 都 可 以 写作 wiw2…w。， 其 中 每 个 wi 都 属于 
LE)。 但 是 


v 


其 中 每 个 wr 都 属于 L( 下)， 因 此 ws 也 属于 ( Y. KERRE, EALEN HRE 
wiwawan 的 形式 ， 其 中 每 个 w 是 Z(E,) 中 的 某 个 串 的 反 转 。 而 因此 该 串 的 反 转 w 
We? Wi 就 是 LE1* ) 中 的 串 ， 也 就 是 Z( 吾 中 的 串 。 至 此 我 们 已 经 证 明了 一 个 串 属于 上 回 
当 且 仅 当 它 的 反 转 属 于 L( 书 '))。 口 


Wr = wil, ow, 


例 4.12 设 L 是 由 正则 表达 式 (0 + 1)0" 定义 的 语言 。 则 根据 连接 规则 可 知 L* 是 (0")* (0 + TD 的 
语言 ， 如 果 我 们 再 对 这 两 部 分 分 别 使 用 封闭 性 规则 和 并 规则 ， 然 后 再 使 用 基础 规则 ， 也 就 是 0 和 
1 的 反 转 就 是 它们 本 身 ， 最 后 我 们 可 以 得 到 严 的 正则 表达 式 为 0(0 + 1), 口 


4.2.3 同 态 
串 同 态 是 串 的 函数 ， 它 对 于 每 个 符号 用 一 个 特别 的 串 来 替换 。 
例 4.13 HAO) = ab 和 h(1) = ge 定义 的 函数 h 是 一 个 同 态 。 给 定 任何 由 0 和 1 组 成 的 串 ， 它 用 ab 
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替换 所 有 的 0 并 把 所 有 的 1 用 空 串 替换 。 例 如 ，h 作 用 到 串 0011 上 的 结果 是 abab。 o 


形式 化 的 定义 是 ， 如 果 h 是 字母 表 上 的 一 个 同 态 ， 且 w = aia2…as 是 由 了 中 的 符号 组 成 的 
FA, Waw) = hla) h(a2)…h(an)。 也 就 是 说 ， 我 们 对 于 w 中 的 每 个 符号 分 别 用 h 来 作用 ， 然 后 再 把 
结果 按 顺 序 连接 起 来 。 例 如 ， 如 果 h 是 例 4.13 中 的 同 态 ， 且 w = 0011, Maw) = h(O)h(O)h(1Dh(1) = 
(ab)(ab)(€)(€) = abab， 和 我 们 在 例子 中 给 出 的 结果 一 样 。 

更 进一步 地 说 ， 我 们 可 以 对 一 个 语言 应 用 同 态 : 只 要 分 别 对 它 的 每 一 个 串 使 用 同 态 即 可 。 
也 就 是 说 ， 如 果 L 是 字母 表 上 的 语言 且 h 是 字母 表 2 上 的 一 个 同 态 ， 则 h(D) = {h(w) 1w 属 于 LL}。 
例如 ， 如 果 Z 是 由 正则 表达 式 10'1 的 语言 ， 即 任何 个 数 的 0 两 端 用 1 围 住所 得 的 串 ， 则 所 是 语言 
(Cab)。 原 因 是 例 4.3 中 的 /把 1 全 都 变 成 了 e， 也 就 是 全 部 去 掉 了 ， 而 把 0 都 变 成 了 ob。 当 把 同 态 直 
接 用 在 正则 表达 式 上 时 ， 可 以 用 同样 的 思想 来 证 明正 则 语言 在 同 态 下 是 封闭 的 。 


定理 4.14 如 果 L 是 字母 表 2 上 的 正则 语言 ，h 是 字母 表 2 上 的 一 个 同 态 ， 则 h(DD) 也 是 正则 的 。 

证 明 IRL = L(R)， 其 中 R 是 正则 表达 式 。 一 般 地 ， 如 果 E 是 正则 表达 式 ， 且 E 中 有 字母 表 I 
中 的 符号 ， 则 用 h(E) 来 表示 把 每 一 个 中 符号 a 用 h(a) 来 代 赫 后 所 得 到 的 表达 式 。 我 们 将 要 证 明 
h(R) 定 义 的 语言 是 A(L)。 

证 明 很 简单 ， 只 要 用 结构 归纳 法 来 证 明 : 只 要 我 们 取出 R 的 一 个 子 表达 式 E， 并 且 对 它 应 用 h 
得 到 h(E)， 那 么 h(E) 的 语言 就 和 我 们 对 语言 L(E) 应 用 h 所 得 的 语言 相同 。 形 式 化 地 就 是 Lh(E)) = 
h(L(E)), 

基础 : 如果 E 是 E 或 者 @， 则 h(E) 与 E 相 同 ， 原 因 是 h 对 捉 或 者 语言 @ 不 起 作用 。 因 此 Lh(E)) = 
LE). 然而， 如 果 E 是 包 或 者 a， 那 么 相应 的 EE) 中 或 者 没有 串 ， 或 者 只 有 空 申 ， 因 此 ， 在 这 两 种 
情况 下 均 有 AKC 局 ) = LE)， 我 们 得 出 结论 h(E)) = LE) = KLE). 

另外 一 种 基础 的 情况 是 已 = a， 其 中 a 是 三 中 的 一 个 符号 。 此 时 ，L(E) = {a}， 所 以 A(LE)) = 
{h(q)}。 同 样 ，h(E) 也 正 是 符号 由 h(a) 表 示 的 正则 表达 式 ， 因 此 Lh(B)) 也 就 是 {h(a)}， 所 以 可 以 得 
出 结论 h(E5)) = h(L(E))。 

归纳 ， 一 共有 三 种 情况 ， 每 种 都 很 简单 。 我 们 只 证 明 并 的 情况 ， 也 就 是 E = F + G。 我 们 对 
正则 表达 式 应 用 同 态 的 方法 保证 了 h(5) = h(F + G) = ACF) + h(G)。 由 正则 表达 式 中 加 号 “+” 的 
含义 的 定义 我 们 知道 (E)=L(F)U LG), FH 

Lh(E)) = L(h(F) + h(G)) = L(h(F)) U Lh(O)) (4-2) 

最 后 ， 由 于 当 把 h 作 用 于 一 个 语言 上 时 实际 上 就 是 把 它 作 用 单独 到 这 个 语言 中 的 每 一 个 捉 ， 

我 们 得 到 

MB) = (LF) U L(G) = h(L(F)) U h(L(G)) (4-3) 
现在 我 们 可 以 利用 归纳 假设 来 得 出 结论 EMCD) = 人 LED) 以 及 KANG)) = ML(G)。 因 此 ， 趟 (4-2) 中 
最 后 的 那个 表达 式 和 式 (4-3) 中 最 后 的 那个 表达 式 是 相等 的 ， 因 此 得 出 它们 的 第 一 项 也 是 相等 的 ， 
BIIL(A(E)) = h(L(E)). 

我 们 就 不 证 明 当 表达 式 E 是 表达 式 的 连接 或 者 封闭 性 的 情况 了 ， 这 些 证 明 的 思想 与 上 面 的 情 
况 类 似 。 结 论 是 L(h(R)) 就 是 h(L(R))， 也 就 是 说 ， 对 定义 一 个 语言 L 的 正则 表达 式 应 用 同 态 h 所 得 
到 的 正则 表达 式 恰好 定义 了 语言 h(L)。 口 
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4.2.4 逆 同 态 


同 态 也 可 以 被 “ 反 过 来 ”使 用 ， 并 且 在 这 种 情况 下 仍然 保持 它 是 正则 语言 。 也 就 是 说 ， 设 / 
是 某 个 字母 表 了 到 另 一 个 字母 表 (也 可 能 是 同一 个 ) T ?上 的 串 的 同 态 。 设 L 是 字母 表 T 上 的 语言 。 
MARL) RELA) 是 所 有 满足 如 下 条 件 的 开 中 的 串 w 的 集合 : h(w) 属 于 上 。 图 4-5a 给 出 
了 对 一 个 语言 L 应 用 同 态 的 效果 ， 而 图 4-5b 则 给 出 了 逆 同 态 的 效果 。 


例 4.15 ” 设 L 是 正则 表达 式 (00 + 1) 的 语言 ， 也 就 是 说 ，L 是 由 所 有 包含 Oo 和 1 且 0 都 是 成 对 出 
现 的 串 所 构成 的 语言 。 比 如 ，0010011 和 10000111 都 属于 L， 而 000 和 10100 则 都 不 属于 L。 


加西 四 的 本 四 


a) b) 
图 4-5 正 向 和 反 向 使 用 的 同 态 


设 h 是 由 h(a) = 01 和 h(b) = 10 定 义 的 同 态 。 下 面 将 要 证 明 h7'() 是 正则 表达 式 (ba)* 的 语言 ， 即 
所 有 由 重复 的 ba 对 所 构成 的 串 。 我 们 只 需 证 明 h(w) 属 于 L 当 且 仅 当 w 是 baba…ba 的 形式 。 

( 当 ) 假设 w 是 m 个 重复 的 pa， 其 中 m>0。 注 意 到 Mba) = 1001， 所 以 h(w) 是 n 个 1001 的 重复 。 
由 于 1001 是 由 两 个 1 和 一 对 0 构成 的 ， 因 此 知道 1001 属 于 ZL， 并 且 把 1001 重 复 任意 多 次 以 后 仍然 是 
由 1 和 00 段 构成 的 ， 因 此 仍然 属于 L。 所 以 得 到 h(w) 属 于 L。 

( 仅 当 ) 现在 ， 必 须 假设 h(w) 属 于 L， 然 后 证 明 w 是 baba…ba 的 形式 。 如 果 一 个 捉 不 是 这 种 形 
式 ， 那 么 这 个 串 共 有 四 种 可 能 的 情况 ， 下 面 将 会 证 明 如 果 这 四 种 情况 中 的 任何 一 种 成 立 则 h(w) 
不 属于 L。 也 就 是 说 ， 证 明了 我 们 要 证 明 的 命题 的 逆 否 命题 。 

I 如 果 w 以 a 开头 ， 则 h(w) 以 01 开 头 ， 因 此 有 一 个 单独 的 0， 因 而 不 属于 L。 

2. 如 果 w 以 b 结 束 ， 则 h(w) 以 10 结 束 ， 因 此 h(w) 中 有 一 个 单独 的 0， 因 而 不 属于 L。 

3. 如 果 w 有 两 个 连续 的 a， 则 htw) 有 子 串 0101， 再 一 次 得 到 单独 的 0。 

4. 类 似 地 ， 如 果 w 有 两 个 连续 的 p， 则 hw) 有 子 串 1010， 其 中 也 有 单独 的 0。 

因此 ， 只 要 上 述 四 种 情况 中 的 一 种 成 立 ，h(w) 就 不 属于 L。 然 而 ， 除 非 上 面 四 种 情况 中 至 少 
一 种 成 立 ， 否 则 w 一 定 是 baba…ba 的 形式 。 原 因 是 ， 假 设 (1) 到 (4) 都 不 成 立 ， 则 (1) 说 明 w 一 定 以 b 
开头 ， 而 (2) 说 明 w 一 定 以 bp 结尾 。(3) 和 (4) 告 诉 我 们 在 w 中 a 和 wb 一 定 交替 出 现 。 因 此 ， 从 (1) 到 (4) 的 
逻辑 “或 ”就 是 命题 “w 不 是 baba…ba 的 形式 ”的 等 价 命题 。 我 们 已 经 证 明了 (1) 到 (4) 的 “或 ” 
欧 涵 着 h(w) 不 属于 L， 而 这 个 命题 就 我 们 所 需要 的 “如 果 h(w) 属 于 L， 则 w 是 baba:…ba 的 形式 ”的 
逆 否 命题 。 口 


O 这 个 7 应 该 被 看 成 是 希腊 字母 的 大 写 ， 也 就 是 后 面 的 那个 希腊 字母 。 
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下 面 我 们 将 证 明正 则 语言 的 逆 同 态 仍然 是 正则 的 ， 并 且 示范 如 何 使 用 这 个 定理 。 


定理 4.16 如果/ 是 字母 表 了 到 字母 表 7 的 同 态 ， 且 ! 是 字母 表 7 上 的 正则 语言 ， 那 么 1-!(D) 也 
是 正则 语言 。 

证 明 首先 从 L 的 一 个 DFA 4 出 发 。 我 们 从 4 和 /构造 一 个 三 !(Z) 的 DEFA， 如 图 4-6 所 示 。 这 个 
DEFA 使 用 4 的 状态 ， 但 是 在 决定 转移 到 哪个 下 一 状态 之 前 把 输入 符号 按照 /对 应 地 转移 一 下 。 


输入 a 





Start 


图 4-6 hn'(L) 的 DFA 在 其 输入 上 应 用 h， 然 后 模拟 L 的 DFA 


形式 化 地 ， 设 L 是 LA)， 其 中 DFA A =(Q, T, ô, qo, 疏 。 定 义 一 个 DFA 
B=(Q, yq 站 
其 中 转移 函数 y 由 规则 y(q, a) = 6(q, h(a)) 构 造 。 也 就 是 说 ，B 对 于 输入 a 的 转移 就 是 A 对 于 符号 序 
列 h(a) 的 一 系列 转移 的 结果 。 记 得 h(a) 可 能 是 a、 一 个 符号 或 者 很 多 符号 ， 但 是 在 这 些 情况 下 5 都 
是 有 适当 的 定义 的 。 
很 容易 通过 对 wl 进行 归纳 来 证 明了 (qo, w) = 6(qo, h(w))。 因 为 4 和 8 的 接受 状态 相同 ， 所 以 B 
接受 w 当 且 仅 当 4 接受 kw)。 换 句 话说，B 恰 好 接受 那些 i-:(Z) 中 的 串 w。 o 


例 4.17 ”在 本 例 中 我 们 将 要 使 用 逆 同 态 和 正则 集 的 一 些 其 他 的 封闭 性 来 证 明 一 个 有 穷 自动 
机 的 特殊 性 质 。 假 设 我 们 需要 一 个 DFA 在 接受 输入 时 要 经 过 每 个 状态 至 少 一 次 。 更 精确 地 说 ， 
WA = Q, E, ô, qo, 月 是 一 个 DEFA， 而 我 们 所 关心 的 是 所 有 满足 如 下 条 件 的 2 中 的 串 w 所 组 成 的 
语言 ZL: 6(qo,%) 属 于 F， 并 且 对 于 任何 中 的 状态 4g， 存在 w 的 某 个 前 级 使 得 (qo,xs) = g。 这 样 
的 LL 是 正则 的 吗 ? 我 们 可 以 证 明 它 是 ， 但 构造 过 程 比较 复杂 。 

首先 ， 从 语言 M 出 发 (就 是 L(4))， 也 就 是 4 以 通常 方式 (不 考虑 在 处 理 输入 串 的 过 程 中 所 
经 过 的 状态 ) 接受 的 串 的 集合 。 注 意 到 L SCM， 原因 是 的 定义 其 实 是 在 L(A4) 中 的 串 上 又 附加 了 
条 件 。 证 明 L 是 正则 的 首先 通过 使 用 一 个 逆 同 态 来 有 效 地 把 4 中 的 状态 转变 为 输入 符号 ， 更 精确 
地 说 ， 我 们 来 定义 一 个 新 的 字母 表 7， 它 由 所 有 看 成 如 下 形式 的 三 元 组 [pag] 符 号 组 成 ， 其 中 ， 

1.p 和 g 都 是 Q 中 的 状态 。 

2.a 是 中 的 符号 。 

3.6(p,a)=4. 




















Download at http://www.pinSi.com/ 


98 RAE 





也 就 是 说 ， 我 们 把 7 中 的 符号 看 作 代表 自动 机 4 中 的 转移 。 了 解 [zaq] 是 我 们 用 来 表示 单个 符 
号 (而 不 是 三 个 符号 的 连接 ) 的 这 一 点 很 重要 。 我 们 也 可 以 用 单个 字母 来 给 它 命 名 ， 但 是 如 果 
这 样 它 和 p, q 以 及 a 的 关系 就 很 难 表达 了 。 
现在 ， 对 所 有 的 p, a 和 9g 定义 同 态 h([pag]) = a。 也 就 是 说 ，h 把 7 中 的 每 个 符号 的 状态 部 分 都 
去 掉 ， 而 只 剩 下 一 个 中 的 符号 的 部 分 。 证 明 L 是 正则 语言 的 第 一 步 是 构造 语言 L! = hM). h 
于 M 是 正则 的 ， 所 以 根据 定理 4.16 知 Ll 也 是 正则 的 。L 的 串 就 是 在 M 的 串 中 对 每 个 符号 加 上 一 对 
状态 来 代表 一 个 转移 。 
用 图 4-4a 中 两 状态 自动 机 来 做 一 个 简单 的 示例 ， 此 时 字母 表 3 是 {0, 1}， 而 字母 表 7 由 四 个 
符号 组 成 : [p09], [909], [plp] 和 [gq14]。 例 如 ， 有 一 个 从 状态 p 到 状态 q 输 入 为 0 时 的 转移 ， 因 此 
[p0g] 是 7 中 的 一 个 符号 。 由 于 101 是 一 个 该 自动 机 所 接受 的 串 ， 所 以 把 号 :应 用 到 该 串 将 得 到 2? = 
8 个 串 ， 例 如 plp][p0g][414] 和 [914][909][z1P] 是 其 中 的 两 个 。 
我 们 将 从 经 过 一 系列 保持 正则 语言 的 运算 来 构造 L。 第 一 个 目标 是 去 掉 蕊 中 不 能 正确 处 理 
状态 的 串 。 也 就 是 说 ， 我 们 可 以 把 一 个 符号 [zaqg] 看 作 自动 机 位 于 状态 p， 读 入 输入 ae， 然后 因此 
进入 状态 9。 这 样 的 符号 的 序列 必须 满足 以 下 三 个 条 件 才 能 被 看 作 4 的 一 个 接受 计算 ， 
1. 第 一 个 符号 的 第 一 个 状态 必须 是 go， 也 就 是 4 的 初始 状态 。 
2. 每 个 转移 必须 从 上 一 个 转移 结束 的 地 方 出 发 ， 也 就 是 说 ， 一 个 符号 的 第 一 个 状态 必须 和 
前 一 个 符号 的 第 二 个 状态 相同 。 

3. 最 后 一 个 符号 的 第 二 个 状态 必须 属于 F。 事 实 上 这 个 条 御 可 以 由 (D 和 (2) 得 到 ， 因 为 我 们 
已 经 知道 媚 中 的 每 个 串 都 是 从 一 个 被 4 接受 的 串 得 来 的 。 

图 4-7 给 出 了 构造 [的 设计 方案 。 








自动 机 4 的 语言 
tas 








1 移入 状态 转移 的 M 的 串 
和 一 个 正则 语言 的 交 


ti 加 入 第 一 个 状态 是 初始 状态 的 条 件 
和 一 个 正则 语言 的 
言 的 差 





加 入 相 邻 状态 相同 的 条 件 
和 一 个 正则 语言 的 差 

+] 加 入 所 有 状态 在 路 笃 中 都 出 现 的 条 件 

t ma 

删除 状态 部 分 ， 留 下 符号 部 分 



































图 4-7 通过 使 用 保留 语言 正则 性 的 运算 来 从 语言 M 构 造 语言 
我 们 达到 条 件 (1) 的 方法 是 : 使 二 和 所 有 开头 符号 为 [goag] 的 串 的 集合 求 交 ， 其 中 是 某 个 符 
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By ERNE. WRI, REAR gong) + [qag] + …， 其 中 ag; 的 范围 是 所 有 Ex 
OP TRE Oo, a) = qi 的 对 。 然 后 设 [ = LNLEIT*)。 由 于 EiT* 是 表示 所 有 中 以 初始 状态 开头 的 
串 的 正则 表达 式 (把 正则 表达 式 中 的 7 看 作 所 有 它 的 符号 的 和 )，Ls 是 所 有 对 语言 M 应 用 如 ! 形 成 
的 串 中 第 一 个 符号 的 第 一 个 部 分 是 初始 符号 的 那些 串 ， 也 就 是 说 它 满足 条 件 (1)。 

为 了 达到 条 件 (2)， 很 容易 使 用 差 运 算 从 五 中 去 掉 那 些 不 满足 它 的 串 。 设 ,是 由 所 有 不 匹配 [5 
的 符号 对 的 连接 的 和 (并 ) 构成 的 正则 表达 式 ， 也 就 是 所 有 [pag][rbs] 形 式 的 对 ， 其 中 qr。 则 
TET 就 是 表示 所 有 不 满足 条 件 (2) 的 串 的 正则 表达 式 。 

现在 我 们 可 以 定义 L = Ls 一 LT E:T )。Ls 的 串 满足 条 件 (1)， 原因 是 书 中 的 串 一 定 以 初始 符 
号 开头 。 它 们 也 满足 条 件 (2)， 因 为 减 去 L(TE;T) 就 等 于 去 掉 了 所 有 不 满足 该 条 件 的 串 。 最 后 ， 
它们 满足 条 件 (3)， 也 就 是 最 后 状态 是 接受 状态 ， 原因 是 开始 时 我 们 只 使 用 了 M 中 的 串 ， 而 这 些 
串 都 是 被 4 所 接受 的 。 最 后 的 结果 是 Za 由 所 有 WM 中 满足 如 下 条 件 的 串 构成 它们 中 的 每 个 符号 中 
代入 的 状态 表示 了 一 个 接受 计算 。 注 意志 是 正则 的 ， 原因 是 它 是 从 正则 语言 M 出 发 ， 经 过 使 用 
逆 同 态 、 交 和 集合 差 运算 得 到 的 结果 ， 而 这 些 运算 在 应 用 于 正则 语言 时 所 得 到 的 结果 仍然 是 正 
则 语言 。 

我 们 的 目的 是 只 接受 那些 在 它们 的 接受 计算 过 程 中 经 过 了 所 有 状态 的 M 中 的 串 。 我 们 可 以 
通过 再 使 用 一 次 集合 差 运 算 来 满足 这 个 条 件 。 也 就 是 说 ， 对 于 每 个 状态 g， 设 E, 是 由 7 的 所 有 第 
一 个 和 最 后 一 个 状态 里 都 不 是 4 的 符号 的 和 构成 的 正则 表达 式 。 如 果 从 Za 中 减 去 上 应 )， 那 么 所 得 
到 的 那些 串 都 是 表示 4 的 一 个 接受 计算 ， 且 该 接受 计算 的 过 程 中 至 少 经 过 状态 q 一 次 。 如 果 对 于 ”[149] 
Q 中 的 每 个 状态 9， 都 从 中 减 去 L(E; )， 那么 得 到 的 就 都 是 4 的 经 过 所 有 状态 的 接受 计算 。 把 该 
语言 记 作 L,， 根 据 定理 4.10 可 知 L 也 是 正则 的 。 

最 后 一 步 是 从 Ls 构造 L， 也 就 是 要 去 掉 所 有 的 状态 部 分 ， 即 L = hL), 现在， ZL 就 是 所 有 满 
是 如 下 条 件 的 2* 中 的 串 的 集合 了 ， 它 被 4 所 接受 ， 并 且 在 接受 过 程 中 经 过 4 的 每 个 状态 至 少 一 次 。 
因为 正则 语言 在 同 态 运算 下 是 封闭 的 ， 因 此 我 们 知道 也 是 正则 语言 。 口 


4.2.5 习题 


习题 4.2.1 ， 设 1 是 从 字母 表 {0, 1, 2} 到 字母 表 {a, DYNA, HIE LH: h(0) = a; h(1) = ab; 
h(2) = ba。 
* a) h(0120) 是 什么 ? 
b) h(21120) 是 什么 ? 
* c) 如 果 L 是 语言 012)， 则 AD) 是 什么 ? 
d) 如 果 L 是 语言 L(0 + 12)， 则 AZ) 是 什么 ? 
* c) 设 忆 是 语言 {ababo}， 也 就 是 只 包含 一 个 种 ababa 的 语言 ， 则 扩 :(Z) 是 什么 ? 
!D 如 果 ! 是 语言 Ca(ba))， 则 入 (DZ) 是 什么 ? 

“1342.2 ”如 果 [ 是 一 个 语言 ，a 是 一 个 符号 ， 则 La ( 称 作 L 和 la 的 商 ) 是 所 有 满足 如 下 条 件 
的 串 w 的 集合 :wa 属于 L。 例如， 如果 L = {a, aab, baa}, Wa = {,ba}, E: ARLE ENH, 
那么 Wa 也 是 。 提 示 : 从 的 DFA 出 发 ， 考 虑 接受 状态 的 集合 。 

! 习题 4.2.3 ”如 果 ! 是 一 个 语言 ，< 是 一 个 符号 ， 则 av 是 所 有 满足 如 下 条 件 的 串 w 的 集合 二 ww 
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属于 L。 例 如 ， 如 果 L = {a, aab, baa}， 则 a\L = {e, ab}, WEH: 如 果 5 是 正则 的 ， 那 么 oY 江 也 是 。 
提示 : 记得 正则 语言 在 反 转运 算 下 是 封闭 的 ， 又 由 习题 42.2 知 正则 语言 在 商 运算 下 是 封闭 的 。 
! 习 题 4.2.4 下 面 的 哪个 恒等式 为 真 ? 

a) (La)a = 上 (左边 表示 语言 Ua 和 {a} 的 连接 )。 

b) a(a\L) =L (同样 ， 这 次 左边 表示 {a} 和 a\L 的 连接 )。 

c) (Laj/a = L, 

d) a\(aL) = L, 

习题 4.2.5 “习题 4.2.3 中 的 运算 有 时 也 被 看 作 “ 导 数 ”， 此 时 av 也 记 做 和 。 这 些 应 用 于 正 
则 表达 式 的 导数 在 某 种 意义 上 和 应 用 于 算术 表达 式 的 普通 的 导数 很 相似 。 因 而 ， 如 果 R 是 一 
个 正则 表达 式 ， 且 = L(R), 那么 我 们 就 用 号 来 表示 和 人 同样 的 意义 。 


d(R+S) dR dS 
a) WEH: zE FTG 


*1b) 给 出 求 RS 的 “导数 ”的 规则 。 提 示 : 需要 考虑 两 种 情况 ， KR) 包 含 s 和 L(R) 不 包含 e。 这 条 
规则 和 普通 的 导数 的 “乘积 法 则 ”并 不 完全 相同 ， 但 很 类 似 。 
Le) 给 出 求 封 六 性 的 “导数 ”的 规则 ， 即 SE, 
D 用 规则 (a) 到 (o) 来 求 出 关于 0 和 1 的 “导数 "。 
+0) 给 出 满足 SE = 包 的 语言 [的 特点 。 


orp atime SE = 三 的 语言 [的 特点 。 
! 习题 4.2.6 证 明正 则 语言 对 于 以 下 运算 封闭 : 
a) min (L) = {w1w 属 于 L， 但 是 w 的 真 前 级 都 不 属于 L}。 
b) max (L) = {w1w 属 于 L， 但 是 不 存在 串 x 满 足 ，x 关 6 且 wx 属 于 L}。 
c) init (L) = {w1 对 于 某 个 串 x，wx 属 于 万 。 
提示 : 类 似 于 习题 4.2.2， 很 容易 从 L 的 一 个 DFA 出 发 来 构造 一 个 需要 的 语言 。 

1 习题 4.2.7 ”如 果 w = aara, 和 x = bib…b, 是 同样 长 度 的 串 ， 定 义 alt (w, 习 是 把 w 和 x 交 叉 起 
来 且 以 w 开 头 所 得 到 的 串 ， 即 a1bia2b2…anb。。 如 果 L 和 M 是 语言 ， 定 义 alt (L, M) 是 所 有 形式 为 
alt, xX) 的 串 的 集合 ， 其 中 w 是 L 中 的 任意 申 ， 而 x 是 M 中 与 w 等 长 的 任意 串 。 证明: 如 果 L 和 M 都 
是 正则 的 ， 那 么 alt(L, M) 也 是 。 

*1! 习题 4.2.8 设 L 是 一 个 语言 ， 定 义 half (D) 是 所 有 ZL 中 串 的 前 一 半 构 成 的 集合 ， 即 {w 1 对 于 某 个 
满足 bd = Iwl 的 zx，wx 属 于 站 。 例 如 ， 如 果 L = {e, 0010, 011,010110}， 则 ha 大 三 = {e, 00, 010}。 注 
意 ， 长 度 为 奇数 的 串 对 于 ha 态 Z 没 有 贡献 。 证 明 : 如 果 Z 是 正则 的 ， 那 么 ha 大 六 也 是 。 

! 习题 4.2.9 ”我 们 把 习题 42.8 推 广 到 能 够 决定 取 走 串 中 多 大 部 分 的 一 系列 函数 。 如 果 f 是 一 个 
HBB, EL SDA tw | 对 某 个 满足 bd = flwD) 的 x-，wx 属 于 L}。 例 如 ， 和 运算 half 对 应 的 但 恒 
等 函数 fn) =n, Ahi LA = lwl。 证 明 : ARETE A, 那么 对 于 以 下 的 f,，AL) 
也 是 正则 的 : 
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引 f(n) =2n (也 就 是 取 走 串 的 前 三 分 之 一 )。 
b)f(n)=m (也 就 是 取 走 的 长 度 是 没 取 走 部 分 长 度 的 平方 根 )。 
©) f(r) = 2" (也 就 是 取 走 的 长 度 是 剩 下 长 度 的 对 数 )。 

n 习题 4.2.10 ” 设 L 是 任何 语言 ， 不 必 正 则 ， 它 的 字母 表 是 {0}， 即 的 串 都 只 由 0 构成 。 证 明 : 
LEEM., AT: 车 一 看 ， 该 定理 很 莞 雇 。 然 而 ， 由 一 个 例子 可 以 看 出 来 为 什么 它 是 正确 的 。 
考虑 语言 L = {0'1 浊 素数 }， 我 们 已 经 由 例 4.3 知 道 它 不 是 正则 的 。 串 00 和 000 属 于 L， 因 为 2 和 3 都 
是 素数 。 因 此 ， 如 果 j> 2， 我 们 可 以 证 明 0 FL: 如 果 j/ 是 偶数 ， 那 么 用 12 个 00， 如 果 j 是 奇数 ， 
那么 用 一 个 000 和 (/ 一 3)2 个 00。 因 此 己 = £ + 000°, 

n 习题 4.2.11 证明 正则 语言 在 下 面 的 运算 下 封闭: cycle(L) = {w 1 可 以 把 w 写 作 w = xy, HE 
满足 yx 属于 L}。 例 如 ， 如 果 L = {01, 011}， 则 cycle(Z) = {01, 10, O11, 110, 101}。 提 示 : 从 7 的 一 
个 DFA 出 发 构造 一 个 cycle([) 的 e-NFA。 

1 习题 4.2.12 iwi = aoaoq!， 对 于 所 有 的 i > 1，wi = wi-iwi-iai。 例 如 w3 = aoaoaraoaoaiazaoao 
adoman, WÈL = {Wa} (也 就 是 只 包含 一 个 串 w 的 语言 ) 的 最 短 正则 表达 式 是 申 w 本 身 ， 
并 且 这 个 表达 式 的 长 度 是 2**' 一 1。 然 而 ， 如 果 人 允许 交 运算 符 ， 我 们 可 以 写 一 个 长 度 为 0(n?) 的 L， 
的 表达 式 。 找 到 这 样 的 表达 式 。 提 示 : 找到 n 个 语言 ， 每 个 的 长 度 都 是 O(n)， 它 们 的 交 是 L,。 

! 习题 4.2.13 ”我 们 可 以 用 封闭 性 来 帮助 证 明 一 些 语言 不 是 正则 的 。 从 下 面 的 语言 不 是 正则 的 
出 发 ， 

Lonin = {0"1" | n>0} 
通过 已 知 对 Lovw 保 持 正则 性 的 运算 来 变换 的 方法 ， 证 明 下 列 语言 都 不 是 正则 的 : 
*a) {OV 1i 4 j}, 
b) {0"1"2""™" |n>m>0}, 
习题 4.2.14 在 定理 4.8 中 ， 我 们 通过 用 两 个 DFA 来 构造 另外 一 个 DFA 的 方法 来 描述 “乘积 构 
造 法 "， 其 中 被 构造 的 DFA 的 语言 是 前 两 个 的 语言 的 交 。 
a) 给 出 对 NFA (没有 e 转 移 ) 采用 乘积 构造 法 的 方法 。 
1b) 给 出 对 eNFA 采 用 乘积 构造 法 的 方法 。 
* c) 修改 乘积 构造 法 ， 使 之 所 得 到 的 DFA 接 受 的 是 给 定 的 两 个 DFA 的 语言 的 差 。 
d 修改 乘积 构造 法 ， 使 之 所 得 到 的 DFA 接 受 的 是 给 定 的 两 个 DFA 的 语言 的 并 。 
习题 4.2.15 在 定理 4.8 的 证 明 过 程 中 ， 我 们 说 可 以 通过 对 w 的 长 度 进行 归纳 来 证 明 : 
lau rdu), w) = (6,(q..w),6, Gus) 
完成 这 个 归纳 证 明 。 
习题 4.2.16 ”完成 定理 4.14 的 证 明 ， 考 虑 当 表达 式 E 是 两 个 子 表达 式 的 连接 或 曙 一 个 表达 式 
的 封闭 性 的 情况 。 
习题 4.2.17 ”在 定理 4.16 中 ， 我 们 省 略 了 通过 对 w 的 长 度 进行 归纳 来 证 明了 (qo, w) = 6 (qo, 
hw)) 的 过 程 ， 给 出 该 证 明 过 程 。 
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43 正则 语言 的 判定 性 质 


本 节 考 虑 如 何 回答 关于 正则 语言 的 重要 问题 。 首 先 必须 考虑 一 下 ， 询 问 一 个 关于 语言 的 问 
题 ， 这 到 底 意味 着 什么 。 典 型 的 语言 是 无 穷 的 ， 所 以 不 能 给 出 语言 的 串 ， 并 且 询问 要 求 检 查 串 
的 无 穷 集合 的 问题 。 恰 当 的 做 法 是 通过 给 出 本 书 已 经 开发 的 语言 的 有 穷 表示 之 一 来 给 出 语言 : 
DFA、NFA、s-NFA 或 正则 表达 式 。 

当然 ， 这 样 描述 的 语言 将 是 正则 的 ， 事 实 上 ， 根 本 就 没有 办 法 来 完全 表示 任意 语言 。 在 后 
面 几 章 里 将 要 看 到 表示 比 正则 语言 更 多 语言 的 有 穷 方法 ， 所 以 能 考虑 关于 在 这 些 更 一 般 类 中 语 
言 的 问题 。 但 是 ， 对 于 所 询问 的 许多 问题 ， 只 有 对 正则 语言 类 才 存 在 算法 。 当 使 用 更 “有 表达 
力 的 ”记号 〈 即 能 用 来 表示 更 大 的 语言 集合 的 记号 ) 而 不 是 已 经 为 正则 语言 开发 的 表示 来 提出 
问题 时 ， 同 样 的 问题 就 成 为 “不 可 判定 的 ”( 没 有 回答 它们 的 算法 )。 

从 回顾 把 同一 语言 的 一 种 表示 转化 成 另 一 种 表示 的 方法 开始 关于 正则 语言 的 问题 的 算法 研 
究 。 具 体 地 说 ， 和 希望 观察 执行 这 些 转化 的 算法 的 时 间 复杂 度 。 然 后 考虑 关于 语言 的 一 些 基本 
问题 ， 

1. 所 描述 语言 是 否 为 空 ? 

2. 具体 的 串 w 是 否 属于 所 描述 语言 ? 

3. 语 言 的 两 种 描述 是 否 实际 上 描述 同一 语言 ? 这 个 问题 通常 被 称 为 语言 的 “等 价 性 ”。 


4.3.1 在 各 种 表示 之 间 转 化 


已 知 正则 语言 四 种 表示 中 任意 一 种 都 能 转化 成 另外 三 种 表示 的 任意 一 种 。 图 3-1 给 出 从 任意 
表示 转化 到 其 余 任意 表示 的 路 线 。 虽 然 对 于 任意 转化 都 存在 着 算法 ， 但 有 时 候 我 们 感 兴趣 的 不 
仅 是 进行 转化 的 可 能 性 ， 还 有 转化 所 花费 的 时 间 量 。 具 体 地 说 ， 在 花费 (作为 输入 规模 的 函数 ) 
指数 时 间 因而 只 能 对 相对 小 的 实例 执行 的 算法 与 花费 输入 规模 成 线性 、 二 次 或 某 个 低 次 多 项 式 
时 间 的 算法 之 间 做 出 区 分 ， 这 是 很 重要 的 。 在 预期 能 对 问题 的 大 实例 来 执行 的 意义 下 ， 后 面 这 
类 算法 是 “现实 的 "。 我 们 将 考虑 所 讨论 的 每 种 转化 的 时 间 复 杂 度 。 

43.1.1 把 NFA 转 化 为 DFA 

当 从 NFA 或 -NFA 开 始 并 转化 成 DEA 时， 时间 可 能 是 NFA 状 态 数 的 指数 。 首 先 ， 计 算 n 个 状 
态 的 封闭 性 要 花费 OL) 时 间 。 必 须 从 m 种 状态 中 每 一 个 沿 着 所 有 标记 的 箭 弧 搜 索 。 如 果 存 在 
1 种 状态 ， 则 不 可 能 超过 己 条 箭 弧 。 明 智 的 籍 记 和 设计 良好 的 数据 结构 将 确保 能 在 Or 时 间 里 
从 每 个 状态 中 搜索 。 事 实 上 ， 能 用 Warshall (RAR) 算法 这 样 的 封 亲 性 算法 来 立刻 计算 整个 e 
HHE, ° 

一 旦 计算 出 s 封 闲 性 ， 就 能 用 子 集 构造 来 计算 等 价 的 DFA。 主 要 的 开销 原则 上 是 DEFA 的 状态 
数 ， 这 可 能 是 2*。 通 过 查询 s 土 闵 性 信息 和 每 个 输 大 符号 的 NFA 转 移 表 ， 就 能 在 OU 时 间 里 对 每 
种 状态 都 计算 出 转移 。 也 就 是 说 ， 假 设 希望 为 DFA 计 算 5({q, qo …, gd. a)。 从 每 个 qi 沿 e 标 记 路 


线 可 能 有 多 达 nm 个 状态 是 可 达 的 ， 这 些 状态 中 每 个 可 能 有 至 多 "个 箭 弧 标记 为 a。 通 过 建立 以 状态 


O ”对 于 传递 封闭 性 算法 的 讨论 ， 参 阅 A. V. Aho, J.E. Hopcroft, and J. D. Ullman, Data Structures and Algorithms, 
Addison-Wesley, 1984, 
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为 下 标的 数组 ， 就 能 在 与 必 成 比例 的 时 间 里 计算 每 个 至 多 有 n 个 状态 的 至 多 n 个 集合 的 并 。 

以 这 种 方式 ， 就 能 对 每 个 4 计算 出 从 4: 沿 着 带 标记 a (可 能 包括 e) 的 路 径 可 达 的 状态 集合 。 
因为 k<n， 至 多 存在 n 个 状态 要 处 理 。 我 们 对 每 个 状态 在 O(m?) 时 间 里 计算 出 可 达 状 态 。 因 此 ， 计 
算 可 达 状 态 所 花费 总 时 间 是 O(m)。 可 达 状 态 集合 的 并 只 需要 O(m?) 额 外 时 间 ， 结论 是 一 个 DFA 转 
移 的 计算 要 花费 O(m3) 时 间 。 

注意 ， 假 设 输入 符号 数 是 常数 且 不 依赖 r。 因 此 ， 在 对 运行 时 间 的 这 个 估计 和 其 他 估计 中 ， 
不 考虑 把 输入 符号 数 作为 因子 。 输 入 字母 表 的 规模 只 影响 “大 0” 记 号 后 面 隐藏 的 常数 因子 ， 而 
不 影响 任何 其 他 东西 。 

本 节 结 论 是 :包括 NFA 有 转移 的 情况 在 内 ，NFA 到 DFA 转 化 的 运行 时 间 是 O02*)。 当 然 ， 
实际 上 产生 的 状态 数 通 常 都 远 远 小 于 2"， 经 常 只 有 n 个 状态 。 可 以 把 运行 时 间 的 界 叙 述 为 O(n3s)， 
其 中 s 是 DFA 实 际 具有 的 状态 数 。 

4.3.1.2 DFA 到 NEFA 的 转化 

这 个 转化 是 简单 的 ， 在 n 状 态 DFA 上 花费 0(m) 时 间 。 所 有 要 做 的 就 是 修改 DFA 的 转移 表 。 方 
法 是 : 给 状态 加 上 集合 括号 ， 如 果 输 出 是 e-NFA， 则 加 入 s 列 。 因 为 认为 输入 符号 数 ( 即 转移 表 
宽度 ) 是 常数 ， 所 以 复制 和 处 理 表 要 花费 O(n) 时 间 。 

4.3.1.3 自动 机 到 正则 表达 式 的 转化 

如 果 检查 3.2.1 节 的 构造 ， 会 注意 到 在 n 轮 的 每 轮 中 (n 是 DFA 状 态 数 )， 能 让 所 构造 正则 表达 
式 的 规模 变 为 四 倍 ， 因 为 每 个 正则 表达 式 是 从 前 一 轮 四 个 表达 式 建 立 的 。 因 此 ， 单 是 写 下 大 不 
表达 式 就 能 花费 O(m4" ) 时 间 。3.2.2 节 的 改进 构造 缩减 了 常数 因子 ， 但 不 影响 问题 的 最 坏 情况 指 
数 性 。 

如 果 输入 是 NFA 或 甚至 e-NFA， 则 同样 的 构造 在 同样 的 运行 时 间 里 起 作用 ， 但 本 书 不 证 明 这 
些 事实 。 不 过 ， 重 要 的 是 对 NFA 使 用 这 些 构造 。 如 果 首 先 把 NFA 转 化 成 DFA， 然 后 把 DFA 转 化 成 
正则 表达 式 ， 则 可 能 花费 O(84”*) 时 间 ， 这 是 双重 指数 的 。 

4.3.1.4 正则 表达 式 到 自动 机 的 转化 

正则 表达 式 到 s-NFA 的 转化 花费 线性 时 间 。 需 要 有 效 地 对 表达 式 做 语法 分 析 ， 使 用 在 长 度 为 
7 的 正则 表达 式 上 只 花费 O(m) 时 间 的 方法 。。 所 得 结果 是 表达 式 树 ， 其 中 正则 表达 式 每 个 符号 对 
应 着 一 个 顶点 (括号 不 必 出 现在 树 中， 括号 只 引导 对 表达 式 的 语法 分 析 )。 

一 旦 有 了 正则 表达 式 的 表达 式 树 ， 就 能 逐步 从 下 到 上 整理 这 棵 树 ， 建 立 每 个 顶点 的 ENFA。 在 
3.23 节 所 见 的 正则 表达 式 转化 的 构造 规则 从 不 对 表达 式 树 的 任何 顶点 添加 超过 2 个 状态 和 4 个 箭 弧 。 
因此 ， 所 得 到 的 seNFA 的 状态 数 和 箭 弧 数 都 是 CO0D)。 而 且 ， 在 语法 分 析 树 的 每 个 顶点 上 产生 这 些 元 
素 的 工作 量 都 是 常数 ， 只 要 处 理 每 个 子 树 的 函数 返回 指向 自动 机 的 初始 状态 和 接受 状态 的 指针 。 

结论 是 从 正则 表达 式 到 e-NFA 的 构造 花费 表达 式 规模 的 线性 时 间 。 我 们 能 在 Ona) 时 间 里 
从 状态 e-NFA 中 消除 转移 来 得 到 普通 NFA 而 不 增加 状态 数 。 但 继续 下 去 到 DFA 却 可 能 花费 指 


© 在 A.V Aho, R. Sethi, and J. D. Ullman, Compiler Design: Principles, Tools, and Techniques, Addison-Wesley, 1986 
(中 文 版 《编译 原理 》 于 2003 年 8 月 已 由 机 械 工业 出 版 社 出 版 一 -编者 注 ) TOT EEOC AT BLE RRA 
任务 的 语法 分 析 技术 。 
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数 时间 。 
4.3.2 测试 正则 语言 的 空 性 


乍 看 起 来 ， 问 题 “ 正 则 语言 /是 否 为 空 3 ”的 答案 是 显然 的 一 一 纪 为 空 ， 而 所 有 其 他 正则 语 
言 都 不 空 。 但 是 ， 在 4.3 节 开始 时 曾 讨论 过 不 是 用 中 串 的 明确 列表 来 陈述 问题 。 更 恰当 的 方式 
是 给 定 L 的 某 种 表示 ， 并 且 需 要 判定 这 个 表示 是 否 表示 语言 @。 

如 果 这 个 表示 是 任意 种 类 的 有 穷 自动 机 ， 则 空 性 问题 就 是 ， 是 否 存在 从 初始 状态 到 某 个 接 
受 状态 的 无 论 什么 任意 路 径 。 如 果 这 样 的 路 径 存 在 ， 则 语言 是 非 空 的 ， 但 如 果 接 受 状态 与 初始 
状态 都 是 隔绝 的 ， 则 语言 是 空 的 。 判 定 是 否 能 从 初始 状态 到 达 接受 状态 ， 这 是 图 可 达 性 的 简单 
实例 ， 实 质 上 类 似 于 在 2.53 节 曾 讨论 过 的 e 封 闭 性 的 计算 。 算 法 能 总 结 成 下 面 这 个 递归 过 程 。 

基础 ， 初始 状态 确实 是 从 初始 状态 可 达 的 。 

归纳 ， 如 果 状 态 4 是 从 初始 状态 可 达 的 ， 并 且 从 4 到 p 的 箭 弧 带 有 任意 标记 (输入 符号 或 e 
(车 自动 机 是 eNFA)) ， 则 p 是 可 达 的 。 

用 这 种 方式 能 计算 可 达 状 态 集合 。 如 果 任 何 接受 状态 在 里 面 ， 则 回答 “和 否 ”( 自 动机 的 语言 
不 为 空 )， 和 否则 回答 “是 "。 注 意 ， 如 果 自 动机 有 n 个 状态 ， 则 可 达 性 计算 花费 不 超过 O(m?) 时 间 ， 
事实 上 不 超过 与 自动 机 转移 图 中 箭 绝 数 成 比例 的 时 间 ， 这 可 能 小 于 吗 而 不 可 能 超过 OU)。 

如 果 给 定 表示 语言 L 的 正则 表达 式 而 不 是 自动 机 ， 则 可 把 表达 式 转化 成 -NFA， 然 后 如 上 述 
继续 下 去 。 从 长 度 为 n 的 正则 表达 式 得 到 的 自动 机 至 多 有 Om) 个 状态 和 转移 ， 所 以 算法 花费 O(n) 
时 间 。 

但 是 ， 也 能 检查 正则 表达 式 来 判定 其 是 否 为 空 。 首 先 注意 如 果 表达 式 不 出 现 O， 则 语言 肯 
定 不 空 。 如 果 存在 久 ， 则 语言 既 可 能 空 也 可 能 不 空 。 下 列 递归 规则 区 分 正则 表达 式 是 否 表示 空 
语言 。 

基础 ， 纪 表示 空 语言 ，s 和 a (对 于 任意 输入 符号 a) 不 表示 空 语言 。 

归纳 : 假设 R 是 正则 表达 式 。 有 四 种 情况 要 考虑 ， 对 应 于 可 能 构造 R 的 方式 。 

1.R=Ri+ Ra。 则 LR) 为 空当 且 仅 当 LR') 和 L(R,) 都 为 空 。 

2.R= RIRz。 则 L(R) 为 空当 且 仅 当 区 RD) 或 KR:) 为 空 。 

3.R=R"。 则 LR) 不 为 空 ，L(R) 总 是 至 少 包含 e。 

4.R=(R)。 则 LR) 为 空当 且 仅 当 LR1) 为 空 ， 因 为 二 者 是 相同 的 语言 。 


4.3.3 测试 正则 语言 的 成 员 性 


下 一 个 重要 问题 是 : 给 定 串 w 和 正则 语言 2，w 是 否 属 于 L。w 是 用 明确 方式 表示 的 ， 但 [是 用 
自动 机 或 正则 表达 式 来 表示 的 。 

如 果 Z 是 用 DFA 表 示 的 ， 则 算法 是 简单 的 。 从 初始 状态 开始 ， 模 拟 DFA 处 理 输入 符号 串 w。 
如 果 DFA 在 接受 状态 结束 ， 则 回答 “是 "， 否 则 回答 “ 否 "。 这 个 算法 非常 快 。 如 果 Iwl = n， 用 适 
当 数 据 结构 (比如 用 二 维 数组 作为 状态 转移 表 ) 表示 DFA， 则 每 个 转移 需要 常数 时 间 ， 整 个 测 
试 花费 O(n) 时 间 。 

如 果 L 有 除 DFA 外 的 其 他 表示 ， 则 可 能 转化 成 DFA 并 运行 上 述 测试 。 这 个 方法 可 能 花费 表示 
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规模 的 指数 时 间 ， 尽 管 是 hwl 的 线性 时 间 。 但 是 ， 如 果 表 示 是 NFA 或 eNFEA， 则 直接 模拟 NFA 就 更 
简单 和 更 有 效 。 也 就 是 说 ， 一 次 处 理 w 的 一 个 符号 ， 保 持 在 跟随 w 的 前 绥 标 记 的 任何 路 径 之 后 
NFA 所 能 处 在 的 状态 集合 。 这 个 思想 如 图 2-10 所 示 。 

如 果 w 长 度 为 "，NFA 有 s 个 状态 ， 则 这 个 算法 运行 时 间 是 O(ns”))。 可 以 通过 下 面 的 方法 处 理 
每 个 输入 符号 ;取出 先前 的 状态 集合 (至 多 有 s 个 状态 ) ， 查 找 这 些 状 态 中 每 个 的 后 继 。 取 得 每 
个 至 多 有 s 个 状态 的 至 多 s 个 集合 的 并 ， 这 花费 O(s) 时 间 。 

如 果 NFA 有 转移 ， 则 在 开始 模拟 之 前 必须 计算 s 封 闭 性 。 然 后 每 个 输入 符号 a 的 处 理 有 两 个 阶 
段 ， 每 个 阶段 都 花费 O(s) 时 间 。 首 先 ， 取 出 先前 的 状态 集合 并 且 找 出 这 些 状态 在 输入 符号 a 上 的 
后 继 。 然后， 计算 这 个 状态 集合 的 a 封闭 性 。 模 拟 的 初始 的 状态 集合 是 NFA 的 初始 状态 的 封闭 性 。 

最 后 ， 如 果 L 的 表示 是 规模 为 的 正则 表达 式 ， 则 能 在 O(s) 时 间 里 转化 成 至 多 有 2s 个 状态 的 e- 
NFA。 然 后 在 长 度 为 n 的 输入 w 上 花费 O(ns”) 时 间 执行 上 述 模拟 。 


4.3.4 习题 


* 习题 4.3.1 给 出 算法 区 分 正则 语言 L 是 否 无 穷 。 提 示 : 用 和 泵 引 理 证 明 如 果 语 言 包含 长 度 大 于 
某 个 下 限 的 任何 串 ， 则 这 个 语言 一 定 是 无 穷 的 。 
习题 4.3.2 给 出 算法 区 分 正则 语言 /是 否 至 少 包含 100 个 串 。 
习题 4.3.3 假设 是 带 字母 表 2 的 正则 语言 。 给 出 算法 区 分 是 否 L= 2°, ANA Le, 
习题 4.3.4 给 出 算法 区 分 两 个 正则 语言 志和 是 否 至 少 有 一 个 公共 串 。 
习题 4.3.5 ”对 于 相同 字母 表 上 的 两 个 正则 语言 LI 和 L2， 给 出 算法 区 分 是 否 存 在 Soop EE TE 
既 不 属于 也 不 属于 L。 


4.4 自动 机 的 等 价 性 和 最 小 化 


与 前 面 的 问题 〈 空 性 和 成 员 性 ， 其 算法 是 相当 简单 的 ) 不 同 ， 两 个 正则 语言 的 两 个 描述 是 
否 其 实 定义 相同 语言 的 问题 涉及 到 相当 可 观 的 智力 技巧 。 在 本 节 中 ， 在 定义 相同 语言 的 意义 下 ， 
讨论 如 何 测 试 正则 语言 的 两 个 描述 是 否 等 价 的 。 这 个 测试 的 重要 后 果 是 存在 一 种 方法 把 DFA 最 
小 化 。 也 就 是 说 ， 能 取出 任意 DFA 并 求 出 状态 数 最 小 的 等 价 DFA。 事 实 上 ， 这 个 DFA 实 质 上 是 
惟一 的 : 给 定 任何 两 个 等 价 的 最 小 状态 DEFA， 总 是 能 找到 办 法 重新 命名 状态 ， 使 得 这 两 个 DFA 
成 为 相同 的 。 


4.4.1 测试 状态 的 等 价 性 


将 从 询问 关于 单个 DFA 的 状态 的 问题 开始 。 目 标 是 理解 两 个 不 同 状态 p 和 4 何 时 能 换 成 作用 
既 类 似 p 又 类 似 g 的 单个 状态 。 状 态 p 和 gq 是 等 价 的， 如 果 : 


“对 于 所 有 输入 串 w，5C,w) 是 接受 状态 当 上 且 仅 当 6(9,w) 是 接受 状态 。 


不 太 形式 化 地 说 ， 仅 仅 通过 从 两 个 状态 之 一 开始 ， 询 问 当 自动 机 从 这 个 (未知 ) 状态 启动 时 ， 
给 定 的 输入 申 是 否 导致 接受 ， 这 样 做 不 可 能 在 等 价 状态 p 和 g 之 间 区 分 出 差别 。 注 意 ， 不 要 求 6 
@, 由 和 6(g,w) 是 相同 的 状态 ， 只 要 求 要 么 都 是 接受 的 ， 要 么 都 是 非 接受 的 。 
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如 果 两 个 状态 不 等 价 ， 则 说 二 者 是 可 区 分 的 。 换 名 话说， 如 果 至 少 存在 一 个 串 w 使 得 5,Ww) 
Mô 四) 中 的 一 个 是 接受 的 而 另 一 个 是 非 接受 的 ， 则 状态 p 与 状态 4 是 可 区 分 的 。 


例 4.18 考虑 图 4-8 的 DFA， 在 本 例 中 ， 将 把 其 转移 函数 称 为 5。 某 些 状态 对 显然 不 是 等 价 的 。 
例如 ，C 和 C 是 不 等 价 的 ， 因 为 一 个 是 接受 的 而 另 一 个 不 是 。 也 就 是 说 ， 空 串 区 分 这 两 个 状态 ， 
因为 6(C, 是 接受 的 而 5(G, a) 不 是 。 








图 4-8 带 有 等 价 状态 的 自动 机 


考虑 状态 4 和 CG。 串 s 不 区 分 这 二 者， 因为 它们 都 是 非 接受 状态 。 串 0 不 区 分 这 二 者 ， 因 为 在 
输入 0 上 二 者 分 别 到 达 状态 8 和 G， 这 些 状态 都 是 非 接 受 的。 同样 ， 串 1 不 区 分 4 和 G， 因 为 二 者 分 
别 到 达 F 和 E， 都 是 非 接 受 的 。 但 是 ，01 区 分 4 和 G， 因 为 6(4, 01) = C，6(G, 01) = E，C 是 接受 
的 而 E 不 是 。 把 A 和 G 带 到 只 有 一 个 接受 状态 的 任何 串 都 足以 证 明 A 和 G 不 是 等 价 的 。 

相反 ， 考 虑 状态 4 和 E。4 和 都 不 是 接受 的 ， 所 以 e 不 区 分 这 三 者。 在 输入 1 上 ， 三 者 都 到 达 
状态 F。 因此 ， 以 1 开头 的 输入 都 不 区 分 A 和 E， 因 为 对 于 任意 申 x，6(4, 1x) = E, 1x), 

现在 考虑 状态 4 和 5 在 以 0 开头 的 输入 上 的 作用 。 二 者 分 别 到 达 状 态 8 和 及。B 和 万 都 不 是 接受 
的 ， 所 以 串 0 本 身 不 区 分 4 和 E。 但 是 ，B3 和 8 也 无 济 于 事 。 在 输入 1 上 二 者 都 到 达 C， 在 输入 0 上 二 
者 都 到 达 G。 因 此 ， 以 0 开头 的 所 有 输入 将 不 能 区 分 4 和 E。 结 论 是 无 论 什么 输入 串 都 将 不 能 区 分 
A 和 E， 即 二 者 是 等 价 状态 。 o 


为 了 求 出 等 价 状 态 ， 要 尽 最 大 努力 来 求 出 可 区 分 状态 对 。 如 果 根 据 下 面 描述 的 算法 来 做 彻 
底 搜索 ， 则 凡是 没有 被 发 现 可 区 分 的 任意 状态 对 都 是 等 价 的 ， 这 可 能 是 令 人 吃惊 的 ， 但 却 是 真 
的 。 算 法 ( 称 为 填 表 算法 ) 递归 地 发 现 DFA A= (Q, X, Ô, qo, RRITE I. 

基础 : 如 果 p 是 接受 状态 而 q 是 非 接受 的 ， 则 {p,q} 对 是 可 区 分 的 。 

归纳 : 设 p 和 gq 是 满足 下 列 条 件 的 状态 : 使 得 对 于 某 个 输入 符号 a, r= 6 (p, aMis = ô (q, a) 是 
已 知 可 区 分 的 状态 对 。 则 {p, g} 是 可 区 分 的 状态 对 。 这 个 规则 有 意义 的 原因 是 一 定 存在 某 个 串 w 
区 分 r 和 s， 即 6(r, w) 和 6(s, w) 恰 有 一 个 是 接受 的 。 于 是 串 aw 一 定 区 分 p 和 g， 因 为 6(p, aw) 和 5(gq， 
aw) 与 6(r,W) 和 6(s,w) 是 相同 的 状态 对 。 


例 4.19 ”在 图 4-8 的 DFA 上 执行 填 表 算法 。 最 终 的 表 如 图 4-9 所 示 ，x 表 示 可 区 分 状态 对 ， 空 
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格 表示 已 经 发 现 等 价 的 状态 对 。 开 始 时 ， 表 中 没有 x。 

对 于 基础 ，C 是 惟一 的 接受 状态 ， 所 以 在 涉及 C 的 每 个 对 中 写 上 x。 既 然 知 道 了 一 些 可 区 分 
对 ， 就 能 发 现 其 他 可 区 分 对 。 例 如 ，{C, 到 是 可 区 分 的 ,在 输入 p 
0 上 状态 E 和 FF 分 别 到 达 H 和 C， 所 以 知道 {E, F} 也 是 可 区 分 对 。 事 
实 上 ， 只 通过 在 0 或 1 上 查看 状态 对 的 转移 ， 并 注意 到 (对 于 这 些 





输入 之 一 ) 一 个 状态 到 达 C 而 另 一 个 不 到 达 C， 就 能 求 出 图 4-9 中 
除了 {4, G} 和 {F, G} 对 之 外 的 所 有 x。 在 下 一 轮 能 证 明 {4, G} 和 
{E, G} 是 可 区 分 的 ， 在 输入 1 上 A 和 E 到 达 F 而 G 到 达 E， 而 且 已 经 
证 明了 {E, 下 } 对 是 可 区 分 的 。 

但 是 ， 在 这 之 后 就 不 能 发 现 更 多 的 可 区 分 对 了 。 三 个 剩余 对 ABCDEFG 
(因此 都 是 等 价 对 ) 是 {A, E), {B, H}, {D, F}。 例 如 ， 考 虑 为 什么 。 图 4.9 状态 非 等 价 性 的 表 
不 能 推出 {4, E} 是 可 区 分 对 。 在 输入 0 上 ，A 和 E 分 别 到 达 8 和 万， 还 没有 证 明 {B, 甸 是 可 区 分 的 。 
在 输入 1 上 ，A 和 E 都 到 达 F， 所 以 这 种 办 法 没有 希望 区 分 这 二 者 。 将 永远 不 能 被 区 分 其 他 两 个 对 
{B, HYD, F}， 因 为 它们 中 的 每 个 对 都 在 0 上 有 相同 转移 并 在 1 上 有 相同 转移 。 因 此 ， 填 表 算法 
停止 在 如 图 4-9 所 示 的 表 上 ， 这 是 对 等 价 状态 和 可 区 分 状态 的 正确 决定 。 fal 
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定理 4.20 ”如果 通 过 填 表 算法 不 能 区 分 两 个 状态 ， 则 这 两 个 状态 是 等 价 的 。 

证 明 再 次 假设 讨论 的 是 DFA A =(Q, X, ô, qo, F)。 假 设 定理 为 假 ， 也 就 是 说 ， 至 少 存在 一 
个 状态 对 {p,q}， 使 得 

1. 在 存在 某 个 串 w 使 得 5p,w) 和 6(g,w) 恰 有 一 个 接受 的 意义 下 ， 状 态 p 和 4 是 可 区 分 的 ， 但 

2. 填 表 算法 没有 发 现 p 和 4 是 可 区 分 的 。 
把 这 样 的 状态 对 称 为 坏 对 。 

如 果 存在 坏 对 ， 则 一 定 存在 用 区 分 坏 对 的 串 中 最 短 的 串 就 能 区 分 的 一 些 坏 对 。 设 {P, 9} 是 
一 个 这 样 的 坏 对 ， 并 设 w = aaran 是 区 分 p 和 gq 的 最 短 的 串 。 则 5(p, w) 和 8(4, w) 中 恰 有 一 个 是 
接受 的 。 

首先 注意 w 不 可 能 是 e， 因 为 如 果 s 区 分 一 对 状态 ， 则 填 表 算法 的 基础 部 分 标记 这 对 状态 。 因 
此 m> 1。 

HERE = Xp, afls = 5(g,ai)。 串 aaay…an 可 区 分 状态 r 和 s， 因 为 这 个 串 把 -和 s 带 到 状态 6 
(P, mW 和 6(g, wW)。 但 是 ， 区 分 r 和 xs 的 这 个 串 比 区 分 坏 对 的 任何 串 都 要 短 。 因 此 ，fr, s} 不 可 能 是 坏 
对 。 更 恰当 地 说 ， 填 表 算 法 一 定 已 经 发 现 r 和 :是 可 区 分 的 。 

但 填 表 算法 的 归纳 部 分 将 不 停止 ， 直 到 已 经 推出 p 和 4 是 可 区 分 的 为 止 ， 因 为 算法 发 现 5p,ai) = 
7 和 6(q; a) = 混 可 区 分 的 。 已 经 与 坏 对 存在 的 假设 相 矛盾 了 。 如 果 不 存 在 坏 对 ， 则 填 表 算法 区 
分 每 对 可 区 分 状态 ， 定 理 为 真 。 o 


4.4.2 测试 正则 语言 的 等 价 性 
填 表 算法 给 出 一 种 容易 的 方法 来 测试 两 个 正则 语言 是 否 相同 。 假 设 语言 C 和 M 各 自用 某 种 方 
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式 来 表示 ， 比 如 一 个 用 正则 表达 式 、 一 个 用 NFA。 把 各 自 表示 转化 成 DFA。 现在， 想像 一 个 
DFA 其 状态 是 L 和 M 的 DFA 的 状态 的 并 。 从 技术 上 说 ， 这 个 DEA 有 0 1 
两 个 初始 状态 ， 但 实际 上 就 测试 状态 等 价 性 而 言 ， 初 始 状态 是 无 sun I , (_) 
关 紧 要 的 ， 所 以 让 任意 状态 作为 惟一 的 初始 状态 。 QQ— 

现在 ， 使 用 填 表 算法 来 测试 原来 两 个 DFA 的 初始 状态 是 否 等 
价 。 如 果 等 价 ， 则 万 = M， 如 果 不 等 价 ， 则 去 M。 


例 4.21 ”考虑 图 4-10 中 的 两 个 DFA。 每 个 DFA 都 接受 空 叫 和 所 
有 以 0 结尾 的 种， 即 正则 表达 式 e + (0 + D'0 的 语言 。 可 以 想像 图 
4-10 表 示 一 个 有 从 A 到 E 五 个 状态 的 DFA。 如 果 对 这 个 自动 机 应 用 
填 表 算法 ， 则 结果 如 图 4-11 所 示 。 

看 看 如 何 填写 表 。 首 先 在 恰 有 一 个 状态 接受 的 所 有 状态 对 中 
写 上 x。 事 实 上 没有 别 的 事情 可 做 。 剩 余 四 对 {4, C}, (A, D}, {C， 
D}, {B, E} 都 是 等 价 对 。 读 者 应 该 验证 在 填 表 算法 的 归纳 部 分 中 没 。 ”图 4-10 两 个 等 价 自动 机 
有 发 现 更 多 的 可 区 分 对 。 例 如 ， 对 于 图 4-11 的 表 ， 不 能 区 分 {A, D} 

对 ， 因 为 在 0 上 4 和 D 都 到 达 自身 ， 在 1 上 到 达 {B, E} 对 ， 还 没有 区 
分 8 和 E。 由 于 这 个 测试 发 现 4 和 C 等 价 ， 而 这 些 状态 是 原来 两 个 自 
动机 的 初始 状态 ， 所 以 结论 是 这 些 DFA 确 实 接受 相同 语言 。 口 +t. 

填 表 并 因而 判定 两 个 状态 是 否 等 价 的 时 间 是 状态 数 的 多 项 式 。 ABCD 
如 果 存 在 "个 状态 ， 则 存在 (Ma — D72 个 状态 对 。 在 一 轮 中 ， ”图 4-11 图 4-10 的 可 区 分 性 表 
考虑 所 有 状态 对 ， 看 看 是 否 已 经 发 现 其 后 继 对 中 有 一 对 是 可 区 分 的 ， 所 以 一 轮 肯 定 花费 不 超过 
OU 时 间 。 而 且 ， 如 果 在 某 轮 中 在 表 中 没有 加 入 新 的 xz， 则 算法 结束 。 因 此 ， 存 在 不 超过 OUn2) 
轮 ，OCr) 肯 定 是 填 表 算法 运行 时 间 的 上 界 。 


但 是 ,更 仔细 的 算法 能 在 O(n”) 时 间 里 填 好 表 。 这 一 思想 是 对 于 每 对 状态 {7, s}， 初 始 化 “ 依 
H (r, DANZE p, 分 对 的 表 。 也 就 是 说 ， 如 果 发 现 {r, s} 是 可 区 分 的 ， 则 {p,q} 是 可 区 分 的 。 在 
开始 时 通过 下 面 的 方式 建立 表 : 检查 每 对 状态 {p, 9}， 对 于 固定 多 个 输入 符号 中 的 每 个 4， 把 {p， 
分 写 在 状态 对 {5p, a), Aq, 中 )} 的 表 上 ， 这 些 是 p 和 g 在 a 上 的 后 继 状 态 。 

如 果 最 终 发 现 {7, s} 是 可 区 分 的 ， 则 往 下 考虑 {7, s} 的 表 。 对 于 这 个 表 中 还 不 是 可 区 分 的 每 个 
对 ， 都 让 这 个 对 是 可 区 分 的 ， 并 把 这 个 对 放 到 必须 同样 检查 的 对 队列 中 。 

这 个 算法 的 总 工作 量 与 表 的 长 度 之 和 成 比例 ， 因 为 在 每 一 次 里 ， 要 么 加 入 一 些 东西 到 表 中 
(初始 化 ) ， 要 么 第 一 次 和 最 后 一 次 检查 表 的 成 员 ( 当 往 下 笋 虚 已 经 发 现 可 区 分 的 对 的 表 时 )。 由 
于 认为 输入 字母 表 规模 是 常数 ， 所 以 每 个 状态 对 都 写 在 O(D) 个 表 中 。 存 在 OU 个 状态 ， 所 以 总 
工作 量 是 O(n?)。 


4.4.3 DFA 最 小 化 
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测试 状态 等 价 性 的 另 一 个 重要 意义 在 于 能 把 自动 机 “最 小 化 "。 也 就 是 说 ， 对 于 每 个 DFA， 
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能 求 出 在 接受 相同 语言 的 任意 DFA 中 具有 最 少 状态 数 的 等 价 DFA。 而 且 ， 除 了 能 用 所 选择 的 无 
论 什么 名 字 来 称呼 状态 这 一 点 之 外 ， 对 于 语言 来 说 这 个 最 小 状态 自动 机 是 惟一 的 。 算 法 如 下 : 

1. 排除 所 有 不 能 从 初始 状态 到 达 的 状态 。 

2. 把 剩 下 的 状态 划分 为 块 ， 同 一 块 中 的 状态 都 是 等 价 的 ， 并 且 不 同 块 中 的 两 个 状态 一 定 不 
等 价 。 下 面 的 定理 4.24 显 示 我 们 总 是 可 以 这 样 划 分 的 。 


例 4.22 ”考虑 图 4-9 中 的 表 ， 在 该 表 中 对 图 4-8 的 状态 决定 了 状态 的 等 价 性 和 可 区 分 性 。 在 
消除 了 从 初始 状态 出 发 不 可 达 的 状态 (D) 之 后 ， 状 态 划分 成 的 等 价 块 是 ({4, E}, {B, H}, {C}, 
{F}, {G》)。 注 意 ， 等 价 的 两 对 状态 每 一 对 都 一 起 放 在 一 个 块 中 ， 而 与 其 余 所 有 状态 都 可 区 分 的 
每 个 状态 各 自 都 自 成 一 块 。 

对 于 图 4-10 中 的 自动 机 ， 划 分 是 ({4, C, D}, {8, E}))。 这 个 例子 说 明 在 一 块 中 能 有 超过 两 个 状 
aS. A, C, D 能 一 起 存在 于 一 个 块 中 ， 这 似乎 是 幸运 的 ， 因 为 它们 每 个 对 都 是 等 价 的 ， 而 其 中 任 
何 一 个 又 不 等 价 于 任何 其 他 状态 。 但 是 ， 在 将 要 证 明 的 下 一 个 定理 中 我 们 看 到 ， 这 种 情况 是 状 
态 “ 等 价 性 ”定义 所 保证 的 。 口 


定理 4.23 状态 等 价 性 是 传递 的 。 也 就 是 说 ， 如 果 在 某 个 DFA A = (0,3, ô, qo, FERIRE 
P 和 4 是 等 价 的 ， 并 且 发 现状 态 g4 和 /是 等 价 的 ， 则 状态 p 和 "是 等 价 的 。 

证 明 ”注意 传递 性 是 期 望 任何 所 谓 “ 等 价 ”关系 都 具有 的 性 质 。 但 是 ， 只 是 称 某 个 东西 
“等 价 ”并 不 就 让 这 个 东西 传递 ， 必 须 证 明 这 个 名 称 是 正当 的 。 

假设 {p, 4} 对 和 {9, /对 都 是 等 价 的 ， 但 {P, "} 对 是 可 区 分 的 。 于 是 ， 存 在 某 个 串 w 使 得 6(p， 
只 和 60,w) 丛 有 一 个 是 接受 状态 。 根 据 对 称 性 ， 不 妨 假设 5(p, w) 是 接受 状态 。 

现在 考虑 68(q, w) 究 竟 是 不 是 接受 状态 。 如 果 5(q, w) 是 接受 状态 ， 则 {9, 7} 是 可 区 分 的 ， 
HÔ, w) 是 接受 状态 而 SC, wj) 不是。 如 果 8(g, w) 是 非 接受 的 ， 则 由 于 类 似 的 理由 {p,4} 是 可 区 分 
的 。 用 归 翰 法 得 出 {p, 站 是 不 可 区 分 的 ， 因 此 这 个 对 是 等 价 的。 o 


可 用 定理 4.23 来 证 明 划分 状态 的 明显 算法 的 正当 性 。 对 于 每 个 状态 4， 构 造 由 4 和 与 4 等 价 的 
所 有 状态 组 成 的 块 。 必 须 证 明 得 到 的 块 是 划分 ， 即 没有 状态 属于 两 个 不 同 的 块 。 

首先 ， 注 意 任意 块 中 所 有 状态 都 是 互相 等 价 的 。 也 就 是 说 ， 如 果 p 和 "是 与 4 等 价 状态 块 中 的 
两 个 状态 ， 则 根据 定理 4.23，P 和 /是 彼此 等 价 的 。 

假设 存在 两 个 重 到 但 不 相等 的 块 。 也 就 是 说 ， 存 在 包含 状态 p 和 gq 的 块 8， 以 及 包含 p 但 不 包 
含 4 的 另 一 个 块 C。 因 为 p 和 4 都 属于 同一 块 ， 所 以 它们 是 等 价 的 。 考 虑 如 何 形成 块 C。 如 果 p 产 生 
块 C， 则 4 应 当 属 于 C， 因 为 这 些 状 态 是 等 价 的 。 因 此 ， 一 定 是 存在 着 某 个 第 三 状态 :产生 块 C， 
即 C 是 与 * 等 价 的 状态 集合 。 

已 知 p 等 价 于 *， 因 为 p 属 于 块 C。 还 已 知 p 等 价 于 9， 因 为 都 一 起 属于 块 B。 根 据 定理 4.23 的 传 
递 性 ，4 等 价 于 *。 但 这 样 一 来 4 就 属于 块 C， 了 矛盾 。 结 论 是 状态 等 价 性 划分 了 状态 ， 也 就 是 说 ， 
两 个 状态 要 么 具有 相同 的 等 价 状态 集合 (包含 其 本 身 在 内 ) ， 要 么 其 等 价 状态 是 不 相交 的 。 上 述 
分 析 的 结论 是 : 
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定理 4.24 ”如 果 对 于 DFA 每 个 状态 4 建立 由 4 和 与 4 等 价 的 所 有 状态 组 成 的 块 ， 则 不 同 的 状态 
块 形成 状态 集合 的 划分 5 。 也 就 是 说 ， 每 个 状态 恰好 属于 一 个 块 。 同 一 块 中 所 有 成 员 都 是 等 价 
的 ， 从 不 同 块 中 选择 的 状态 对 都 不 是 等 价 的 。 o 


现在 能 够 简洁 地 叙述 把 DFA A = (Q, F, ô, go, 万 最 小 化 的 算法 了 。 

1. 用 填 表 算法 找 出 所 有 等 价 状态 对 。 

2. 用 上 述 方法 把 状态 集合 Q 划 分 成 互相 等 价 的 状态 的 块 。 

3. 用 块 作为 状态 来 构造 最 小 状态 等 价 DFA B。 设 ?是 B 的 转移 函数 。 假 设 ? 是 4 的 等 价 状态 集 
合 , a 是 输入 符号 。 则 一 定 存在 一 个 状态 块 7 使 得 对 于 5 中 所 有 状态 9，6(q,q) 是 块 ? 的 成 员 。 
因为 假如 不 是 这 样 ， 则 输入 符号 a 把 5 中 两 个 状态 p 和 gq 带 到 不 同 块 中 ， 根 据 定理 4.24， 这 些 
状态 是 可 区 分 的 。 这 个 事实 允许 得 出 p 和 g 是 等 价 的 且 不 能 同属 于 5 的 结论 。 结 果 是 可 设 
M5,q)=T。 另 外 : 

(a) 8 的 初始 状态 是 包含 4 的 初始 状态 的 块 。 

(6) 5 的 接受 状态 是 包含 4 的 接受 状态 的 块 。 注 意 ， 如 果 块 中 一 个 状态 是 接受 的 ， 则 这 个 
块 中 所 有 状态 一 定 都 是 接受 的 。 原因 是 任何 接受 状态 与 任何 非 接受 状态 都 是 可 区 分 的 ， 
所 以 不 能 让 接受 状态 和 非 接受 状态 同属 于 一 个 等 价 状态 块 。 


例 4.25 把 图 4-8 中 的 DFA 最 小 化 。 在 例 4.22 中 建立 了 状态 划分 块 。 图 4-12 说 明 最 小 状态 自动 
机 。 最 小 状态 自动 机 的 五 个 状态 对 应 于 图 4-8 中 的 自 1 
动机 的 五 个 等 价 状态 块 。 

初始 状态 是 {A, E}， 因 为 4 是 图 4-8 的 初始 状态 。 o D 
惟一 的 接受 状态 是 {C}， 因 为 C 是 图 4-8 惟 一 的 接受 状 
态 。 注 意 ， 图 4-12 中 的 转移 恰当 地 反映 出 图 4-8 中 的 转 o 
移 。 例 如 ， 图 4-12 在 输入 0 上 有 从 {A, E} 到 {8, HME (ae) o 
移 。 这 是 有 意义 的 ， 因 为 在 图 4-8 中 ， 在 输入 0 上 4 到 


达 B8，E 到 达 H。 同 样 ， 在 输入 1 上 {4, 如 到 达 {D, F}。 

如 果 检查 图 4-8， 就 会 发 现在 输入 1 上 4 和 E 都 到 达 F， (en) © 
PRLATEM AL ESA, EJE ARRIE EATEN . DERE, D) 
在 输入 1 上 4 和 E 都 不 到 达 D 的 事实 是 不 重要 的 。 读 者 0 
可 验证 所 有 其 他 转移 也 都 是 正确 的 。 oO 图 4-12 等 价 于 图 4-8 的 最 小 状态 DFA 


4.4.4 为 什么 不 能 比 最 小 DFA 更 小 


假设 有 DFA A， 用 定理 4.24 的 划分 方法 把 4 最 小 化 来 构造 DFA M。 这 个 定理 说 明 不 能 把 4 的 状 
态 分 成 更 少 的 组 而 仍然 得 到 等 价 DFA。 但 是 ， 能 否 存 在 另 一 个 与 4 无 关 的 DFA N 接 受 与 4 和 M 相 
同 的 语言 但 比 M 状 态 要 少 ? 用 归 廖 法 就 能 证 明 N 不 存在 。 


首先 ， 在 M 和 N 上 一 起 运行 4.4.1 节 的 状态 可 区 分 性 过 程 ， 就 好 像 M 和 N 是 一 个 DEA 那 样 。 可 


O 读者 应 当 记 住 ， 从 不 同 状态 开始 ， 可 能 多 次 形成 相同 的 块 。 但 是 ， 划 分 由 不 同 的 块 组 成 ， 所 以 这 个 块 在 划分 
中 只 出 现 一 次 。 
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假设 M 和 N 的 状态 没有 公共 名 字 ， 所 以 组 合 自动 机 的 转移 函数 是 M 和 N 的 转移 规则 的 不 相交 的 并 。 
状态 在 组 合 自动 机 中 是 接受 的 当 且 仅 当 状 态 在 原来 的 自动 机 中 是 接受 的 。 

MM 和 N 的 初始 状态 都 是 不 可 区 分 的 ， 因 为 (M) = LN)。 另 外 ， 如 果 {p, 9} 是 不 可 区 分 的 ， 则 
其 后 继 在 任意 一 个 输入 符号 上 也 是 不 可 区 分 的 。 原 因 是 假如 能 区 分 后 继 ， 则 应 该 能 区 分 p 和 gq。 

M 和 NN 都 没有 不 可 达 状 态 ， 否 则 就 可 消除 这 个 状态 而 对 同样 语言 得 到 更 小 的 DFA。 因 此 ，M 
的 每 个 状态 至 少 与 N 的 一 个 状态 是 不 可 区 分 的 。 为 了 看 出 为 什么 ,假设 p 是 M 的 状态 。 于 是 存在 
HA Raar a 把 M 的 初始 状态 带 到 状态 p。 这 个 串 也 把 N 的 初始 状态 带 到 某 个 状态 9。 因 为 已 知 
初始 状态 是 不 可 区 分 的 ， 所 以 知道 其 后 继 在 输入 符号 a 上 也 是 不 可 区 分 的 。 于 是 ， 这 些 状 态 的 
后 继 在 输入 符号 a 上 是 不 可 区 分 的 ， 依 此 类 推 ， 直 到 得 出 结论 p 和 g 是 不 可 区 分 的 为 止 。 

因为 N 比 M 状 态 要 少 ， 所 以 存在 两 个 M 状 态 与 同一 个 N 状 态 是 不 可 区 分 的 ， 因 此 互相 不 可 区 
分 。 但 已 经 把 M 设 计 成 所 有 状态 者 是 互相 可 区 分 的 。 这 样 就 得 出 了 矛盾 ， 所 以 假设 N 存 在 就 是 错 
AY, 并且 M 事 实 上 不 比 4 的 任意 等 价 DFA 具 有 更 多 的 状态 。 形 式 化 地 说 ， 已 经 证 明了 定理 4.26。 


定理 4.26 ”如 果 4 是 DEA，M 是 通过 定理 4.24 叙 述 中 所 描述 的 算法 从 4 构造 的 DFA， 则 M 不 比 
与 4 等 价 的 任意 DEA 具 有 更 多 的 状态 。 口 


事实 上 ， 我 们 可 以 说 甚至 比 定理 426 更 强 的 一 些 东西 。 在 任何 其 他 最 小 状态 N 与 DEA M 的 状态 之 
间 一 定 存在 着 一 一 对 应 。 原 因 是 上 面 论 证 过 M 的 每 个 状态 如 何 一 定 等 价 于 N 的 一 个 状态 ， 没 有 M 的 状 
态 能 等 价 于 N 的 两 个 状态 。 我 们 同样 可 以 论证 没有 N 的 状态 能 等 价 于 M 的 两 个 状态 ， 但 每 个 N 的 状态 
一 定 等 价 于 一 个 M 的 状态 。 因 此 ， 除 了 可 能 重新 命名 状态 之 外 ， 与 4 等 价 的 最 小 状态 DFA 是 惟一 的 。 





NFA 的 状态 最 小 化 


读者 可 能 想像 把 DFA 状 态 最 小 化 的 同样 技术 也 许 能 用 来 求 出 与 给 定 NFA 或 DEA 等 价 的 
最 小 状态 NFA。 尽 管用 穷 举 枚 举 过 程 能 求 出 接受 给 定 正则 
语言 的 状态 最 少 的 NFA， 但 只 把 语言 的 某 个 给 定 NFA 的 状 Ot 
态 分 组 却 不 能 求 出 这 样 的 NFA。 

一 个 例子 在 图 4-13 中 。 三 个 状态 都 不 等 价 。 接 受 状态 8 
与 非 接受 状态 A 和 C 肯 定 是 可 区 分 的 。 但 是 ， 输 入 0 不 能 区 
分 A 和 C。C 的 后 继 只 有 A， 不 包括 接受 状态 ， 而 A 的 后 继 是 
{4; 8}， 包 括 接受 状态 。 因 此 ， 把 等 价 状态 分 组 并 不 减少 
图 4-13 中 的 状态 数 。 





图 4-13 不 能 用 状态 等 价 性 
不 过 ， 如 果 只 删除 状态 C， 就 能 求 出 同一 语言 的 更 小 的 来 最 小 化 的 NFA 


NFA。 注 意 ， 仅 4 和 B 就 接受 所 有 以 0 结尾 的 串 ， 而 添加 状态 C 并 不 允许 接受 任何 其 他 的 串 。 











4.4.5 习题 


* 习题 4.4.1 图 4-14 中 是 DFA 的 转移 表 。 
a) 画 出 这 个 自动 机 的 可 区 分 性 表 。 
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b) 构造 最 小 状态 的 等 价 DFA。 
习题 4.4.2 对 于 图 4-15 中 的 DFA 重 做 习题 4.4.1。 
1 习题 4.4.3 假设 p 和 4 是 有 "个 状态 的 给 定 DFA A 的 可 区 分 状态 。 作 为 n 的 函数 ， 区 分 p 和 gq 的 最 
短 的 串 的 长 度 的 紧 上 界 是 多 少 ? 


[ES i) he 





B 
c 
D 
E 
F 
G 
H 
F 

A 





图 4-14 有 待 最 小 化 的 DFA 图 4-15 另 一 个 有 待 最 小 化 的 DFA 
4.5 小 结 


RIL: 如 果 语 言 是 正则 的 ， 则 这 个 语言 中 每 个 足够 长 的 串 都 有 非 空 子 串 能 被 “抽取 ”， 
也 就 是 说 ， 这 个 子 串 重复 任意 多 次 所 得 到 的 串 也 在 语言 中 。 这 个 事实 能 用 来 证 明 许多 不 同 
的 语言 不 是 正则 的 。 

“保持 是 正则 语言 的 性 质 的 运算 : 有 许多 运算 在 作用 到 正则 语言 时 产生 正则 语言 作为 结果 ， 其 
中 有 并 、 连 接 、 封 闲 性 、 交 、 补 、 差 、 反 转 、 同 态 用 相关 中 替换 每 个 符号 ) 和 道 同 态 等 。 
“测试 正则 语言 的 空 性 :存在 算法 对 于 给 定 正则 语言 的 表示 (比如 自动 机 或 正则 表达 式 ) 来 
区 分 所 表示 的 语言 是 否 为 空 集合 。 

“测试 正则 语言 的 成 员 性 :存在 算法 对 于 给 定 的 囊 和 正则 语言 的 表示 来 区 分 这 个 申 是 否 属于 
这 个 语言 。 

“测试 状态 可 区 分 性 ， 如 果 存 在 输入 串 把 两 个 状态 中 恰好 一 个 带 到 接受 状态 ， 则 DFA 的 这 两 
个 状态 是 可 区 分 的 。 由 一 个 接受 状态 和 一 个 非 接受 状态 组 成 的 对 是 可 区 分 的 ， 单 从 这 个 事 
实 出 发 , 通过 寻找 其 后 继 在 一 个 输入 符号 上 可 区 分 的 对 , 来 尝试 发 现 更 多 的 可 区 分 状态 对 ， 
就 能 发 现 所 有 可 区 分 状态 对 。 

， 把 确定 型 有 穷 自动 机 最 小 化 ， 能 把 任意 DFA 的 状态 划分 成 互相 不 可 区 分 状态 的 组 。 两 个 不 
同 组 的 成 员 总 是 可 区 分 的 。 如 果 用 单个 状态 替换 每 个 组 ， 则 得 到 相同 语言 的 状态 数 最 少 的 
等 价 DFA。 


4.6 参考 文献 


除了 克 林 [6] 证 明 过 的 正则 表达 式 的 明显 封闭 性 并、 连接 和 星 号 ) 之 外 ， 儿 乎 所 有 关于 正 


则 语言 封闭 性 的 结果 都 模仿 关于 上 下 文 无 关 语言 (在 第 5 章 中 研究 的 语言 类 ) 的 类 似 结果 。 因 此 
正则 语言 的 泵 引 理 是 Bar-Hillel、Perles、Shamir[1] 关 于 上 下 文 无 关 语言 的 对 应 结果 的 简化 版 本 。 
同一 篇 文章 间接 给 出 本 章 证 明 的 其 他 几 种 封闭 性 。 不 过 ， 对 逆 同 态 封闭 的 结果 出 自 []: 


在 习题 4.2.2 中 介绍 的 商 运算 出 自 [3]。 事 实 上 ， 这 篇 文章 讨论 用 任意 正则 语言 粹 换 单 个 符号 a 
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的 较 一 般 运 算 。 从 习题 4.2.8 开 始 、 在 正则 语言 中 串 的 前 半 段 上 作用 的 “部 分 删除 ”类 型 的 系列 
运算 始 于 [8]。Seiferas 和 McNaughton[9] 解 决 了 删除 运算 何 时 保持 正则 语言 的 一 般 情 形 。 

诸如 正则 语言 的 空 性 、 有 穷 性 和 成 员 性 这 样 的 原始 的 判定 算法 出 自 [7]。 把 DFA 状 态 最 小 化 
的 算法 出 现在 [7 和 [5] 中 。 求 最 小 状态 DFA 的 最 有 效 算法 在 [4] 中 。 
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第 5 章 上 下 文 无 关 文法 及 
上 下 文 无 关 语 言 


现在 我 们 把 注意 力 从 正则 语言 转移 到 另外 一 大 类 语言 上 来 ， 它 们 被 称 作 “上 下 文 无 关 语 言 "。 
这 类 语言 有 着 自然 的 递归 记号 ， 这 种 记号 被 称 作 “ 上 下 文 无 关 文法 "。 从 20 世 纪 60 年 代 以 来 ， 上 
下 文 无 关 文法 一 直 在 编译 技术 中 扮演 着 重要 的 角色 。 它 们 能 够 把 语法 分 析 器 (一 类 用 来 在 编译 
过 程 中 发 现 源 程序 结构 的 函数 ) 的 实现 从 一 种 费时 的 、 独 特 的 设计 工作 转变 成 一 种 能 够 很 快 完 
成 的 工作 。 近 年 来 ， 上 下 文 无 关 文法 也 被 用 来 描述 文档 格式 : XML (eXtensible Markup 
Language， 可 扩展 标记 语言 ) 中 使 用 的 DTD (Document-Type Definition， 文 档 类 型 定义 ) 就 是 
用 来 描述 Web 上 的 信息 交换 格式 的 。 

在 本 章 中 ， 我 们 将 首先 介绍 上 下 文 无 关 文 法 的 记号 ， 然 后 将 介绍 怎样 用 文法 来 定义 语言 。 
我 们 将 会 讨论 到 “语法 分 析 树 ”一 对 一 个 文法 处 在 它 所 表示 的 语言 的 字符 串 中 结构 的 图 形 描述 。 
语法 分 析 树 是 一 个 编程 语言 的 语法 分 析 器 的 产物 ， 也 是 通常 用 来 获得 程序 结构 的 途径 。 

上 下 文 无 关 语言 还 有 另外 一 种 等 价 的 自动 机 记号 ， 称 作 “下 推 自 动机 "， 它 描述 并 且 只 描述 
所 有 的 上 下 文 无 关 语 言 。 我 们 将 在 第 6 章 介 绍 下 推 自动 机 。 虽 然 它 不 如 有 穷 自 动机 重要 ， 但 我 们 
会 发 现 ， 作 为 一 种 语言 的 定义 机 制 ， 在 探讨 第 7 章 中 的 上 下 文 无 关 语 言 的 封闭 性 和 判定 性 质 时 ， 
下 推 自动 机 (特别 是 它 与 上 下 文 无 关 文 法 的 等 价 性 ) 是 非常 有 用 的 。 


5.1 上 下 文 无 关 文 法 


本 章 的 内 容 将 从 非 形式 化 地 介绍 上 下 文 无 关 文 法 的 表示 法 开始 。 形 式 化 的 定义 会 在 读者 了 
解 到 这 些 文法 的 一 些 重要 的 能 力 之 后 给 出 。 届 时 将 会 说 明 怎样 形式 化 地 定义 一 个 文法 ， 并 将 介 
绍 一 种 “推导 ”过 程 ， 它 能 够 决定 在 一 个 文法 的 语言 中 到 底 有 哪些 串 。 


5.1.1 一 个 非 形式 化 的 例子 


下 面 来 考虑 一 个 回 文 (palindrome) 的 语言 。“ 回 文 ”是 指正 向 和 反 向 读 起 来 都 一 样 的 字符 串 ， 
比如 otto 或 者 mnadamimadam (“Madam, I'm Adam"， 引 自 夏娃 在 伊甸园 里 听 到 的 第 一 句 话 )。 换 
名 话说 ， 串 w 是 一 个 回 文 当 且 仅 当 w = we。 为 了 使 问题 简单 些 ， 只 考虑 描述 字母 表 {0.1} 上 的 回 文 ， 
这 个 语言 包括 0110，11011 这 样 的 串 ， 也 包括 空 串 s， 但 不 包括 011 或 0101 这 样 的 惠 。 

很 容易 验证 这 个 0O 和 1 上 的 回 文 语言 Lx 不 是 正则 语言 ， 要 做 到 这 点 只 需要 使 用 和 泵 引 理 即 可 ， 
如 果 Low 是 一 个 正则 语言 ， 令 n 是 与 其 相关 的 常数 ， 考 虑 回 文 串 w = 0"10"。 如 果 Low 是 正则 的 ， 那 
么 就 能 够 把 w 写 为 w = xyz， 使 得 y 由 第 一 组 中 一 个 或 若干 个 0 构成 。 因此， 如 果 万 "是 正则 的 ， 那 
Zr Ele 中 。 然 而 ， 由 于 xz 的 两 端的 0 的 个 数 不 同 ， 进 而 可 知 它 不 可 能 是 回 文 种 ， 由 此 得 
出 的 矛盾 可 以 推翻 前 面 关 于 Ze 是 正则 语言 的 假设 。 

对 于 什么 样 的 0 和 1 串 在 Lp 里， 有 一 个 自然 的 递归 定义 ， 它 从 一 个 最 基本 的 显然 属于 ya 中 的 
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串 开始 ,接着 利用 一 个 最 直观 的 思想 , 即 如 果 一 个 串 在 rr 里， 那么 其 开头 和 结尾 的 字母 一 定 相同 ， 
进一步 得 出 : 当 把 其 开头 和 结尾 的 字母 都 去 掉 以 后 ， 剩 下 的 串 一 定 也 是 回 文 。 具 体 写 出 来 就 是 : 

基础 : s，0 和 1 都 是 回 文 。 

归纳 : 如 果 w 是 回 文 ， 那 么 09w0 和 1w1 也 都 是 回 文 。 另外， 除了 由 上 面 的 基础 和 归纳 定义 出 
来 的 串 之 外 再 没有 0 和 1 的 回 文 。 

上 下 文 无 关 文 法 就 是 一 个 形式 化 的 表示 法 ， 它 可 用 来 表达 语言 的 这 种 递归 定义 。 一 个 文法 
是 由 一 个 或 多 个 用 来 代表 字符 串 类 (也 就 是 语言 ) 的 变 元 构成 的 ， 在 这 个 例子 里 ， 我 们 只 需要 
使 用 一 个 变 元 P， 它 用 来 代表 回 文 串 的 集合 〈 也 就 是 组 成 语言 ru 的 串 类 ) 。 另 外 还 有 一 些 用 来 说 
明 如 何 构造 每 个 类 中 的 串 的 规则 ， 构 造 既 可 以 使 用 字母 表 中 的 符号 ， 也 可 以 使 用 类 中 已 经 有 的 
串 ， 还 可 以 两 者 都 用 。 


例 5.1 图 5-1 给 出 了 定义 用 上 下 文 无 关 文法 表示 的 回 文 的 规则 。 这 些 规则 的 含义 将 在 5.1.2 节 














HPA L P> oe 
前 三 条 规则 构成 了 基础 ， 它 们 说 明 回 文 的 串 类 中 包括 串 e，0 Baie! Gre 
和 1。 这 三 条 规则 的 右 端 (箭头 所 指 的 那 边 ) 都 没有 变 元 ， 这 也 是 4, P = OPO 
说 它们 构成 了 基础 的 原因 。 5 P > 1Pl 
后 两 条 规则 构成 了 定义 的 归纳 部 分 。 例 如 ， 规 则 4 是 说 : 如 果 图 5-1 回 文 的 上 下 文 无 关 文法 
从 P 这 个 类 中 取出 串 w， 则 串 0w0 也 在 P 这 个 类 中 。 类 似 地 ， 规 则 5 说 明 lw1 也 在 P 中 。 o 
5.1.2 上 下 文 无 关 文法 的 定义 
语言 的 文法 性 描述 包括 四 个 重要 部 分 : 
1. 一 个 符号 的 有 穷 集合 ， 它 构成 了 被 定义 语言 的 串 。 在 上 面 回 文 的 示例 中 该 集合 为 {0, 1}， 
这 个 字母 表 称 为 终结 符 或 终结 符号 。 


2. 一 个 变 元 的 有 穷 集合 ， 变 元 有 时 也 称 为 非 终 结 共 或 语法 范 畸 。 每 个 变 元 代表 一 个 语言 ， 
即 一 个 串 的 集合 。 在 上 面 的 例子 中 只 有 一 个 变 元 P， 它 被 用 来 代表 以 {0, 1} 为 字母 表 的 回 
文 串 类 〈 回 文 串 的 语言 ) 。 

3. 有 一 个 变 元 称 为 初始 符号 ， 它 代表 语言 开始 被 定义 的 地 方 。 其 他 变 元 代表 其 他 辅助 的 字 
符 串 类 ， 这 些 变 元 被 用 来 帮助 初始 符号 定义 该 语言 。 在 上 面 的 例子 中 ， 惟一 的 变 元 P 同 时 
也 是 初始 符号 。 

4. 一 个 产生 式 (或 者 规则 ) 的 有 穷 集 合 ， 它 用 来 表示 语言 的 递归 定义 。 每 个 产生 式 包括 ; 
(a) 一 个 变 元 ， 它 被 该 产生 式 定义 或 者 部 分 定义 ， 这 个 变 元 通常 称 为 产生 式 的 头 。 

(b) 一 个 产生 式 符号 一 。 
(一 个 包含 零 个 或 多 个 终结 符号 或 变 元 的 串 ， 它 叫 作 产 生 式 的 林 ， 表 示 一 种 构成 产生 式 
头 变 元 的 语言 中 的 串 的 方法 。 具 体 的 构造 过 程 是 : 保持 终结 符号 不 变 ， 把 任何 已 知 属 
于 该 语言 的 串 里 出 现 的 产生 式 的 头 用 产生 式 的 体 替换 。 
图 5-1 是 一 个 产生 式 的 例子 。 
上 面 给 出 的 四 个 部 分 构成 了 一 个 上 下 文 无 关 文 法 ， 简 称 文法 或 者 CFG。 一 个 CFG G 可 以 用 
组 成 它 的 四 部 分 表示 ， 记 作 G = (V, T, P, 5)， 其 中 V 是 变 元 (Variable) 的 集合 ,7 是 终结 符号 
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(Terminal) 的 集合 ，P 是 产生 式 (Production) 的 集合 ，3 代 表 初 始 符号 (Start symbol), t 


例 5.2 回 文 的 文法 Gow 可 以 表示 为 
Gra = ({P}, {0, 1}, A, P) 
其 中 4 表示 图 5-1 中 所 示 的 五 个 产生 式 的 集合 。 [a] 


例 5.3 ”下 面 来 考虑 一 个 复杂 一 些 的 CFG， 它 表示 典型 的 编程 语言 中 的 (简化 的 ) 表达 式 。 
首先 ， 运 算 符 限制 为 只 有 + 和 *， 分 别 用 来 表示 加 法 和 乘法 。 其 次 ; 表达 式 中 允许 有 标识 符 ， 但 
不 是 一 般 标识 符 的 完整 的 集合 (字母 开头 ， 后面 跟 有 零 个 或 多 个 字母 或 数字 )， 字 母 仅 限于 a 和 
4b， 数字 仅 限 于 0 和 1}。 也 就 是 说 ， 每 个 标识 符 必须 由 a 或 5p 开始， 后面 可 以 跟着 任何 {a, b, 0, 1} 
中 的 串 。 

这 个 文法 中 需要 两 个 变 元 。 一 个 记 作 E， 代 表 表 达 式 (Expression), ， 同 时 它 也 是 初始 符号 ， 
用 来 表示 所 要 定义 的 表达 式 的 语言 。 另 一 个 变 元 记 作 1， 代 表 标 识 符 (Identifier) ， 它 所 代表 的 语 
言 其 实 是 正则 的 ， 也 就 是 下 面 的 正则 表达 式 所 表示 的 语言 : 

(a+b)(a+b+0+1)° 


然而 ， 在 文法 中 不 应 该 直接 使 用 正则 表达 式 。 不 过 ， 我 们 可 以 用 一 系列 的 产生 式 来 表示 和 这 个 
正则 表达 式 所 表示 的 实质 上 一 样 的 东西 。 

这 个 描述 表达 式 的 文法 可 以 形式 化 地 记 为 G = ({E, I, T, P, E), 
其 中 7 是 终结 符号 的 集合 {+, *, (, ), a, b, 0, 1}，P 是 图 5-2 中 所 示 的 产 
生 式 的 集合 。 下 面 是 对 这 些 产 生 式 的 解释 。 

规则 (1) 是 表达 式 的 基础 规则 ， 说 的 是 一 个 表达 式 可 以 是 单个 标 
识 符 。 规 则 (2) 到 (4) 描 述 了 表达 式 的 归纳 部 分 : 规则 (2) 说 明 一 个 表 
达 式 可 以 由 两 个 表达 式 中 间 用 加 号 连接 组 成 ， 规 则 (3) 和 (2) 类 似 ， 
不 过 把 加 号 换 成 了 乘 号 ， 规 则 (4) 则 说 明 任何 由 一 对 括号 括 起 来 的 一 
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个 表达 式 本 身 也 是 表达 式 。 图 5-2 简单 表达 式 的 
规则 (5) 到 (10) 定 义 了 标识 符 1。 其 中 规则 (5) 和 (6) 是 基础 部 分 一 a ， “上下文 无 关 文 法 

和 都 是 标识 符 。 其 他 的 四 条 规则 是 归纳 部 分 ， 它 们 说 明 任何 标识 符 后 面 再 加 上 a, b, 0, 1 中 

的 任何 一 个 所 得 到 的 结果 依然 是 标识 符 。 口 





产生 式 的 简捷 表示 法 


把 产生 式 看 作 “ 属 于 ” 它 的 头 变 元 是 很 方便 的 ， 因 此 我 们 将 经 常 使 用 像 “A 的 产生 式 ” 
或 者 “A 产生 式 ” 这 样 的 记 法 来 表示 以 变 元 4 为 头 的 产生 式 。 有 了 时 也 通过 下 面 的 方法 来 书写 
一 个 文法 的 产生 式 : 每 个 变 元 只 在 产生 式 头 中 出 现 一 次 ， 而 在 该 产生 式 的 体 里 列 出 所 有 该 
变 元 的 产生 式 的 体 ， 并 且 用 竖 杠 分 隔 。 也 就 是 说 ， 产 生 式 组 4 一 a, Aon, …, A 一 0w 可 以 用 
下 面 的 记号 来 代替 : 4 一 aulaol…lav。 举 例 来 说 ， 图 5-1 中 的 回 文 文法 可 以 写作 :， P 一 e10111 
OPO11P1, 
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5.1.3 使 用 文法 来 推导 


CFG 的 产生 式 可 以 用 来 推断 一 个 特定 的 串 确实 在 一 个 特定 的 变 元 的 语言 中 ， 这 样 的 推断 有 
两 种 方法 。 比 较 常规 的 一 种 方法 是 从 产生 式 的 体 到 产生 式 的 头 来 使 用 规则 。 也 就 是 说 ， 对 于 产 
生 式 的 体 中 的 变 元 ， 可 以 取出 一 个 已 知 属于 这 个 变 元 所 代表 的 语言 的 串 ， 然 后 把 得 到 的 册 按 照 
正确 的 顺序 与 体 中 出 现 的 终结 符号 连接 起 来 ， 并 且 推断 出 得 到 的 串 在 该 产生 式 的 头 中 的 变 元 的 
语言 中 。 这 种 方式 的 推理 称 为 递归 推理 。 

另 一 种 定义 一 个 文法 的 语言 的 方法 是 从 产生 趟 的 头 到 体 来 使 用 规则 。 具 体 的 做 法 是 使 用 
以 初始 符号 为 头 的 一 个 产生 趟 来 扩展 初始 符号 ， 接 着 通过 普 换 体 中 变 元 的 方式 来 扩展 所 得 到 的 
串 ， 具 体 替换 的 方式 是 用 一 个 以 该 变 元 为 头 的 产生 式 的 体 来 替换 该 变 元 。 继 续 这 个 过 程 ， 直 到 
得 到 的 字符 串 中 只 有 终结 符 。 这 个 文法 的 语言 就 是 所 有 能 用 这 种 方式 得 到 的 终结 符 串 。 这 种 使 
用 文法 的 方式 叫 作 推 革 。 

下 面 举 一 个 例子 来 说 明 第 一 种 方法 一 -递归 推理 。 然 而 ， 通 常用 推导 的 方法 来 考虑 文法 更 
加 自然 ， 因 此 紧 接 着 就 会 给 出 描述 这 种 推导 的 表示 法 。 


例 5.4 ”考虑 一 些 使 用 图 5-2 中 的 文法 进行 推理 的 例子 ， 图 5-3 是 这 些 推理 的 汇总 。 例 如 ， 第 
多 行 说 明 可 以 通过 使 用 产生 式 5 来 推断 串 e 属 于 1 所 代表 的 语言 。 第 (i 行 到 第 (iv) 行 说 明 可 以 推断 
500 是 一 个 标识 符 〈 通 过 使 用 产生 式 6 一 次 得 到 p， 再 使 用 产生 式 9 两 次 就 能 得 到 后 面 的 两 个 0) 。 


推理 得 出 的 串 | 属于 的 语言 | 使 用 的 产生 式 | 使 用 的 串 








(iz) | a*#(a+b00) | E (v), (viii) 


图 5-3 使 用 图 5-2 中 的 文法 进行 串 的 推理 


第 (v) 行 和 第 (wi) 行 利用 产生 式 1 推 断 出 以 下 结论 ， 由 于 任何 标识 符 都 是 表达 式 ， 所 以 在 第 (i) 
行 和 第 (iv) 行 中 推断 出 的 标识 符 a 和 b00 也 都 是 变 元 E 所 代表 的 语言 中 的 串 。 第 (vi) 行 利用 产生 式 2 
推出 这 些 表 达 式 的 和 也 是 表达 式 ， 第 (viii) 行 利用 产生 式 4 推出 用 括号 括 着 的 同样 的 串 也 是 表达 
式 ， 第 (ix) 行 利用 产生 式 3 把 标识 符 a 与 在 第 (viii) 行 中 所 发 现 的 表达 式 相 乘 。 a 


从 头 到 体 使 用 产生 式 来 进行 推导 需要 定义 一 个 新 的 关系 符号 一 。 设 G = (V, T, P, 9) 是 一 个 
CEFG，c4p 是 一 个 包含 终结 符 和 变 元 的 串 ， 其 中 4 是 一 个 变 元 ， 也 就 是 说 ，a 和 都 是 (VUD' 中 的 
串 ， 而 4 属于 V。 设 A 一 y 是 6 的 一 个 产生 式 ， 那 么 我 们 称 24B 忆 07B。 如 果 G 是 已 知 的 ， 那 么 就 可 
以 把 它 省 略 掉 ， 而 仅仅 记 做 a4p 一 ay8。 注 意 ， 在 推导 的 每 一 步 中 都 可 以 替换 串 中 任何 位 置 的 
任何 一 个 变 元 ， 只 要 用 该 变 元 的 任何 一 个 产生 式 的 体 替换 该 变 元 即 可 。 
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可 以 进一步 把 = 关系 推广 到 能 够 表示 零 步 、 一 步 或 者 多 步 推 导 ， 就 像 有 穷 自动 机 的 转移 函 
数 6 被 推广 到 6 一 样 。 在 推导 中 ， 用 一 个 * 来 表示 “ 零 步 或 多 步 "， 如 下 : 
基础 : 对 任何 由 终结 符 和 变 元 组 成 的 囊 a 都 有 a 过 a; 也 就 是 说 ， 任 何 串 都 能 推导 出 它 自己 。 


归纳 : 如 果 a 字 PB 并 且 8 二 y， 则 a 字 y。 也 就 是 说 ， 如 果 a 经 过 零 步 或 多 步 推导 可 以 得 到 p， 


而 6 经 过 零 步 或 多 步 推导 可 以 得 到 y， 那 么 a 就 可 以 推导 出 y。 另 一 种 解释 ，a 字 意味 着 存在 一 个 
串 的 序列 zh, ys ya (n>1) 满足 

lasy. 

2.B= Ino 

3.4 Fi=1,2, =, n-1, Hy >a. 

如 果 文法 G 是 已 知 的 ， 我 们 可 以 用 SKRE >. 


例 5.5 ”a x (a + 5b00) 属 于 变 元 E 所 代表 的 语言 的 推理 可 以 用 一 个 从 串 E 开 始 的 对 该 串 的 推导 

来 给 出 ， 下 面 就 是 一 个 这 样 的 推导 ; 
E=E*E=|1*E=>a*E=> 
a*(E)=> a*(E+E)=>a*(1+E)=>a*(a+E)=> 
a*(a+1)=>a*(at10)=>a+*(a+ 100) = a*(a+b00) 

在 第 一 步 中 ， 用 产生 式 3 (来 自 图 5-2) 的 体 来 替换 E。 在 第 二 步 中， 产生 式 1 体 中 的 /被 用 来 
替换 第 一 个 E， 依 此 类 推 。 值得 注意 的 是 ,在 替换 时 系统 地 采用 了 总 是 替换 串 中 最 左 变 元 的 策略 。 
然而 在 每 一 步 中 ， 其 实 可 以 选择 要 被 替换 的 变 元 ， 也 可 以 使 用 任何 一 个 该 变 元 的 产生 式 的 体 来 
赫 换 它 。 例 如 ， 在 第 二 步 中 ， 可 以 用 (局 来 替换 第 二 个 已 (使 用 产生 式 43)， 如 果 这 样 做 的 话 ， 就 
可 以 得 到 E*E=> Ex(E)。 也 可 以 选择 一 个 甚至 永远 不 能 得 到 这 个 终结 符 串 的 炉 换 ，。 一 个 简单 的 
例子 是 ， 如 果 在 第 一 步 时 使 用 产生 式 2， 那 么 将 会 得 到 E 二 E+E， 而 无 论 对 这 两 个 E 再 做 任何 
标 换 都 无 法 把 E+ EWI a+ (a+ b00), 

可 以 使 用 关系 符号 一 来 简化 推导 过 程 。 由 基础 可 知 BE 已， 然后 反复 使 用 归纳 部 分 可 以 得 
BIESE*E, ESI+ES%, HBR) E->as(a+500)。 

递归 推理 和 推导 这 两 种 观点 是 等 价 的 。 也 就 是 说 ， 能 够 推理 出 一 个 终结 符 串 w 属 于 某 个 变 元 
4 的 语言 当 且 仅 当 A 过 w。 然 而 ， 想 要 证 明 这 个 事实 还 需要 一 些 其 他 的 工作 ， 将 其 留 到 5.2 节 再 
来 完成 。 o 


5.1.4 最 左 推导 和 最 右 推导 


为 了 限制 推导 一 个 串 时 可 选 推导 的 数目 ， 要 求 在 每 一 步 推导 中 只 将 最 左边 的 变 元 赫 换 成 该 
变 元 的 某 个 产生 式 的 体 ， 这 种 方式 的 推导 称 为 最 左 推 寻 ， 用 关系 符号 一 和 之 分 别 来 表 未 一步 
和 多 步 的 最 左 推导 。 如 果 所 用 的 文法 G 在 推导 中 不 是 很 清楚 ， 那 么 也 可 以 把 它 放 到 这 两 个 符号 中 
箭头 的 下 边 。 

类 似 地 ， 也 可 以 每 次 只 替换 串 中 最 右边 的 变 元 ， 这 样 的 推导 称 为 最 右 推导 ， 使 用 符号 > 
和 之 分 别 来 表示 一 步 和 多 步 的 最 右 推导 。 同上 ， 如 果 文法 不 是 很 清楚 的 话 ， 相 应 文法 的 名 字 也 
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可 以 写 在 箭头 下 边 。 





CFG 推 导 中 的 表示 


在 讨论 CFG 时 ， 对 不 同 符号 的 表示 方法 有 许多 约定 俗 成 的 惯例 可 以 帮助 读者 记 住 符号 
的 作用 ， 比 如 : 
1. 字 母 表 中 开头 的 几 个 小 写字 母 (如 a, bE) 表示 终结 符号 ,数字 和 其 他 字符 (比如 十 
或 括号 ) 也 总 是 表示 终结 符号 。 
2. 字 母 表 中 开头 的 几 个 大 写字 母 (WA, BE) 表示 变 元 。 
3. 字母 表 中 结尾 的 儿 个 小 写字 母 (如 w 或 z) 表示 终结 符 串 。 这 种 约定 提示 我 们 : 终结 
符 与 自动 机 中 的 输入 符号 类 似 。 
4. 字母 表 中 结尾 的 几 个 大 写字 母 (WARY) 可 以 表示 终结 符号 或 者 变 元 。 
S 小写 的 希腊 字母 (如 a 和 有 p) 表示 由 终结 符号 和 (或 ) 变 元 构成 的 串 。 
其 中 没有 只 由 变 元 构成 的 串 的 特殊 记号 ， 原 因 是 这 种 串 的 意义 不 大 。 然而， 命名 为 a 或 其 
他 希腊 字母 的 串 可 以 只 包含 变 元 。 











例 5.6 例 55 中 的 推导 实际 上 是 一 个 最 左 推导 。 因 此 ， 我 们 也 可 以 这 样 写 ， 
E> E*E>1*E-a+E=> 
a*(E)>as(E+E)as(1+E)as(at B= 
a*(a+ Dara 十 10)=>a*(at 100)=>a*(a +b00) 

我 们 也 可 以 把 上 面 的 最 左 推导 概括 为 E=>a*(a+b00) ， 或 者 分 多 步 来 表达 推导 的 过 程 ， 比 如 其 


中 的 某 一 步 为 ExEa(B). 
如 果 采 用 最 右 推导 ， 虽 然 对 串 中 的 每 个 变 元 实际 上 做 了 同样 的 替换 ， 但 替换 的 次 序 不 同 。 
有 具体 写 出 这 个 最 右 推导 就 是 : 
E> E+E E*(E)>E*(E+E)=> 
E*(E + DEE + 10) E*(E + 100) E+ (E + b00)—> 
E*(1 + b00)=> E*(a + b00)=> I + (a + b00)=> a + (a + b00) 


这 个 推导 可 以 概括 为 B 一 a*(a+b00) 。 


任何 扒 导 都 有 等 价 的 最 左 推 导 和 最 右 推导 。 也 就 是 说 ， 如 果 w 是 一 个 终结 符 串 ，4 是 一 个 变 
元 ， 那 么 4 一 mw MANH ASW, TE 4 过 >w 当 且 仅 当 4 二 w， 具 体 的 证 明 将 在 5.2 节 中 给 出 。 


5.1.5 文法 的 语言 


WRG = (V, T, P, 3 是 一 个 CFG， 那 么 G 的 语言 ( 记 作 ZKG)) 是 指 能 从 初始 符号 推导 出 的 所 


有 终结 符 串 的 集合 。 也 就 是 说 ， 
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LG) = {T Hp ftw 1S Sw} 
如 果 一 个 语言 L 是 某 个 上 下 文 无 关 文 法 的 语言 ， 那 么 L 就 称 为 上 下 文 无 关 语言 或 者 CFL。 例 
如 ,我们 断定 图 5-1 中 的 文法 定义 了 字母 表 为 {0, 1} 上 的 回 文 的 语言 ， 因 此 ， 这 些 回 文 的 集合 就 
是 一 个 上 下 文 无 关 语言 。 这 个 命题 的 具体 证 明 如 下 。 


定理 5.7 L(Gx) 是 字母 表 为 {0,1} 上 的 回 文 的 集合 ， 其 中 Gu 是 例 5.1 中 的 文法 。 

证 明 我 们 将 要 证 明 一 个 {0, 1} 中 的 串 w 在 区 Gr) 中 当 且 仅 当 它 是 一 个 回 文 ， 即 w = wr。 

( 当 ) 假定 w 是 一 个 回 文 ， 我 们 通过 对 fwl 进 行 归纳 来 证 明 w 在 XGx) 中 。 

基础 长度 0 和 1 作为 归纳 基础 。 如 果 Iwl = 0 或 Iwl = 1， 那 么 w 一 定 是 e, 0 或 1， 由 于 有 产生 式 
P 一 e，P 一 0 和 P 一 1， 结 论 是 在 上 面 任何 一 种 情况 下 都 有 Pw. 

归纳 : 假定 wl>2。 因 为 w = w*， 所 以 w 的 开头 和 结尾 一 定 是 同一 个 符号 ， 即 w = 0x0 或 w = 
1x1， 并 且 x 也 一 定 是 一 个 回 文 ， 即 x = 区 。 注 意 ， 为 了 说 明 w 的 两 端 确实 有 两 个 不 同 的 0 或 1， 需 
要 用 到 Iwl> 2 这 一 事实 。 

如 果 w = 000, 则 根据 归纳 假设 有 P= x, 继而 可 以 得 到 从 P 到 w 有 一 个 推崇 户 过 0P0 壹 0x0 = w 。 
如 果 w = 1x1， 情 况 类 似 ， 只 是 第 一 步 推导 所 需 的 产生 式 是 P 一 1P1。 在 这 两 种 情况 下 都 可 以 得 出 
WHEL Gra) 中 ， 证 毕 。 

( 仅 当 ) 现在 假定 w 在 LGmr) H, AN Pw ， 必 须 证 明 的 是 w 是 一 个 回 文 。 证 明 的 过 程 是 对 
从 P 到 w 的 推导 过 程 的 步 数 进行 归纳 。 

基础 ， 如 果 该 推导 是 一 步 完成 的 ， 那 么 它 一 定 使 用 了 三 个 在 体 中 不 包含 P 的 产生 式 之 一 ， 即 
该 推导 为 P =e，P =0 或 P =1。 因 为 :: 0 和 1 都 是 回 文 ， 因 而 基础 得 证 。 

归纳 : 现在 ， 假 定 恋 推 导 共 包含 a + 1 步 ， 其 中 n>1， 并 且 对 于 任何 n 步 完成 的 推导 上 述 命题 
都 为 真 ， 也 就 是 说 ， 如 果 P=x 可 在 n 步 完成 ， 那 么 x 一 定 是 回 文 。 

考虑 一 个 w 的 + 1) 步 推导 ， 它 一 定 是 如 下 形式 : 

P=>0P0>0x0 =w 
或 者 P=1P1 过 1x1=w， 原 因 是 n+ 1 步 其 实 最 少 是 两 步 ， 而 且 能 够 增加 推导 步 数 的 产生 式 只 有 
P 一 0P0 和 P 一 1P1; 注意 ， 在 这 两 种 情况 中 ，P 二 x 都 能 在 n 步 完成 。 

根据 归纳 假设 可 知 * 是 回 文 ， 即 x = x*。 但 是 ， 如 果 这 样 就 有 0x0 和 1x1 也 都 是 回 文 ， 例 如 ， 

(0x0)*=0x*0=0x0。 由 此 可 知 w 也 是 回 文 ， 证 毕 。 o 


5.1.6 名 型 


由 初始 符号 推导 出 来 的 串 有 着 很 特殊 的 作用 ， 称 其 为 “ 句 型 "。 也 就 是 说 ， 如 果 G =V; T: P, 
S) 是 一 个 CFG， 那 么 任何 在 (YUT)* 中 且 满 足 5 二 a 的 串 a 都 是 揣 型 。 如 果 3 二 w 则 co 是 去 名 型 ， 


如 果 3 全 c 则 o 是 右 负 型。 注意 ， 语 言 K(G) 是 由 所 有 属于 六 的 句 型 (也 就 是 由 只 含 终结 符号 的 名 
型 ) 组 成 的 。 


例 5.8 ”考虑 图 5-2 中 表达 式 的 文法 。 例 如 ; Bx (+ E) 是 一 个 句 型 ;因为 可 以 有 这 样 一 个 
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HES: 
E= E*E=>E*(E)=>E*(E+E)>E*(I1+E) 


然而 这 个 推导 既 不 是 最 左 的 也 不 是 最 右 的 ， 因 为 在 最 后 一 步 中 被 替换 的 是 中 间 的 E。 
举 一 个 左 句 型 的 例子 ， 考 虑 a * E， 存 在 最 左 推导 : . 


E=>E*E=>1*E=a*E 
m m m 


类 似 地 ， 下 面 的 推导 
E> E+EE*(E)>E*(E+E) 


可 以 说 明 E* (E + EY — i). o 





文法 证 明 的 形式 


定理 5.7 是 一 个 典型 的 例子 ， 它 证 明了 某 个 文法 确实 定义 了 某 个 已 经 非 形式 化 定义 好 的 
特定 的 语言 。 首 先 要 给 出 一 个 归纳 假设 ， 用 它 来 描述 每 个 变 元 所 推导 出 的 串 都 要 满足 的 性 
质 。 在 这 个 例子 中 只 有 一 个 变 元 P， 因 此 只 要 声明 它 所 代表 的 串 就 是 回 文 串 即 可 。 

然后 证 明 “ 充 分 性 ”这 部 分 : 如 果 一 个 串 w 满 足 某 个 变 元 4 的 一 个 串 所 应 该 有 的 非 形式 
化 陈述 的 性 质 ， 那 么 就 应 该 有 4 一 w。 在 这 个 例子 中 ， 因 为 P 是 初始 符号 ， 因 此 Pewi 
意味 着 w 在 这 个 文法 的 语言 中 。 通 常 ， 我 们 通过 对 w 的 长 度 进行 归纳 来 证 明 “ 充 分 性 ”这 部 
分 。 如 果 有 k 个 变 元 ， 那 么 可 以 证 明 归 纳 陈述 应 该 包含 个 部 分 ， 并 且 它 们 之 间 应 该 能 被 证 
明 是 互 归纳 的 关系 。 

接着 要 证 明 “ 必 要 性 ”这 部 分 : 如 果 4 一 w， 那 么 w 应 该 满足 4 所 能 推导 出 的 串 所 应 该 
有 的 非 形式 化 陈述 的 性 质 。 同 样 ， 在 这 个 例子 中 ， 因 为 只 有 初始 符号 P 需 要 处 理 ， 所 以 认 
为 w 在 Cr 的 语言 里 和 P=>w 是 等 价 的。 这 部 分 的 证 明 通常 需要 对 推导 的 步 数 进行 归纳 。 如 
果 该 文法 有 所 推导 出 的 串 中 可 能 包含 两 个 或 更 多 的 变 元 的 产生 式 ， 那 么 就 应 该 把 一 个 n 步 
的 推导 分 成 若干 部 分 ， 每 个 变 元 一 个 推导 。 这 些 推导 可 能 比 a 步 少 ， 因 此 就 必须 使 用 对 所 
有 小 于 等 于 n 的 情况 都 包含 的 归纳 假设 ， 就 像 14.2 节 中 所 讨论 的 那样 。 
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5.1.7 习题 


习题 5.1.1 设计 下 列 语言 的 上 下 文 无 关 文法 : 

* a) RAO n> 1}， 即 所 有 一 个 或 多 个 0 后 面 跟着 相同 数目 的 1 的 串 的 集合 。 

下 中 集合 {ebiee itj RAK, ATMEL TEE BORA: 若干 个 后 面 跟着 若干 个 
b， 后 面 再 跟着 若干 个 <， 并 且 或 者 a 和 5 的 数目 不 同 ， 或 者 b 和 c 的 数目 不 同 ， 或 者 两 者 都 
不 同 。 

1o 所 有 不 是 ww 形式 的 由 a 和 4 构成 的 串 的 集合 ， 即 不 是 把 某 个 申 重复 一 遍 的 囊 。 

NAD 所 有 0 的 个 数 是 1 的 个 数 两 倍 的 串 的 集合 。 

习题 5.1.2 下 面 的 文法 产生 了 正则 表达 式 0"1(0 +D WIRE: 
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S 一 41B 
4 一 041e 
B 一 0B11B1e 
试 给 出 下 列 串 的 最 左 推导 和 最 右 推导 : 
* a) 00101, 
b) 1001, 
c) 00011, 
! 习题 5.1.3 WE: 任何 正则 语言 都 是 上 下 文 无 关 语言 。 提 示 : 通过 对 正则 表达 式 中 的 运算 
符 的 数目 进行 归纳 的 方法 来 构造 CFG。 


! 习题 5.1.4 ”如 果 一 个 CFG 的 每 个 产生 式 的 体 都 最 多 只 有 一 个 变 元 ， 并 且 该 变 元 总 在 最 右 端 ， 
那么 称 CFG 为 右 线性 的 。 也 就 是 说 ， 右 线性 文法 的 所 有 产生 式 都 是 4 一 wB 或 4 一 w 的 形式 ， 其 中 4 


. 和 8 是 变 元 ，w 是 由 零 个 或 多 个 终结 符 组 成 的 串 。 


DUEN: 任何 右 线 性 文法 所 产生 的 语言 都 是 正则 语言 。 提 示 ， 构造 一 个 eNEA 来 模拟 最 左 扒 
导 ， 并 用 它 的 状态 来 表示 当前 左 句 型 中 的 单个 变 元 。 

ONEI: 任何 正则 语言 都 有 右 线性 文法 。 提 示 ， 用 一 个 DFA， 并 且 用 文法 的 变 元 来 表示 状 
态 。 

*1 习题 5.1.5 T= {0,1,(,),+,*,e}， 可 以 把 7 看 作 字 母 表 为 {0, 1} 的 正则 表达 式 所 使 用 的 符 
号 的 集合 ， 惟 一 的 不 同 是 用 e 来 表示 符号 6， 目 的 是 为 了 避免 有 可 能 出 现 的 混淆 。 你 的 任务 是 以 了 
为 终结 符号 集合 来 设计 一 个 CFG， 该 CFG 生 成 的 语言 恰好 是 字母 表 为 {0, 1} 的 正则 表达 式 。 

习题 5,1.6 定义 关系 符号 过， 其 中 基础 为 “a 二 a”"， 归 纳 为 “如 果 有 a 过 Bp 和 有 一， 
WH a=>y"。 还 有 很 多 定义 一 的 方法 与 定义 “之 是 一 步 或 多 步 的 一 ”的 效果 是 一 样 的 。 
证 明 下 列 命 是 都 是 正确 的 : 

aq 一 有 当 且 仅 当 有 一 个 包含 一 个 或 多 个 串 的 序列 : 

Yo Yo “e Ya 


fitta=n, B=, #AHFI= 1,2,…,n 一 1 都 有 7 一 yw 。 
b) MURA a> BAI By, WARA aS, aR: 使 用 归纳 法 ， 对 推导 By 中 的 步 数 进 
行 归纳 。 
! 习题 5.1.7 考虑 下 面 产生 式 定义 的 CFG G: 
S—aSlSblalb 
a) 通过 对 串 的 长 度 进行 归纳 ， 证 明 任何 KG) 中 的 串 都 没有 ba 这 个 子 串 。 
b) 非 形式 化 地 描述 LCG)， 用 (a) 来 证 明 答案 。 
1 85.1.8 考虑 下 面 的 产生 式 定义 的 CFG G: 
S—aSbS | bSaS | € 
证 明 L(G) 是 有 相同 个 数 的 a 和 b 的 所 有 串 的 集合 。 
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5.2 语法 分 析 树 


推导 有 一 种 非常 有 用 的 树 型 表示 一 语法 分 析 树 ， 这 种 树 能 够 清楚 地 告诉 我 们 终结 符 串 中 的 
符号 是 怎样 组 成 子 串 的 ， 这 些 子 串 属于 文法 中 某 个 变 元 的 语言 。 更 重要 的 是 ， 在 编译 器 设计 中 
语法 分 析 树 是 一 种 可 以 用 来 表示 源 程序 的 重要 的 数据 结构 。 在 编译 器 中 ， 把 源 程序 表示 成 树 结 
构 能 够 有 助 于 用 自然 的 递归 函数 来 完成 把 源 程序 翻译 成 可 执行 代码 的 工作 。 

在 本 节 中 ， 首 先 介绍 语法 分 析 树 ， 并 阐述 它 与 推导 以 及 递归 推理 的 存在 性 之 间 的 紧密 联系 。 
然后 研究 文法 和 语言 的 歧义 性 的 本 质 ， 这 也 是 语法 分 析 树 的 一 种 重要 应 用 。 有 些 文法 允许 一 个 
终结 符 串 拥有 多 棵 语法 分 析 树 ， 这 种 情况 使 得 这 种 文法 不 适合 用 来 表达 程序 设计 语言 ， 因 为 它 
使 得 编译 器 无 法 判断 一 些 源 程序 的 结构 ， 因 而 无 法 给 该 程序 确定 合适 的 可 执行 代码 。 





回顾 关于 树 的 术语 


这 里 假设 读者 已 经 了 解 了 树 的 概念 ， 并 且 熟 悉 常 用 的 关于 树 的 定义 。 然 而 ， 下 面 我 们 
还 是 一 起 回顾 一 下 : 

“ 树 是 一 些 有 特定 父子 关系 的 节点 (或 顶点 ) 的 集合 。 每 个 节点 至 多 有 一 个 父 节点 ， 

该 父 节 点 画 在 该 节点 上 面 ， 还 有 零 个 或 多 个 子 节点 画 在 该 节点 下 面 ， 并 且 父 子 节点 

之 间 用 线段 连接 。 图 5-4、 图 5-5 和 图 5-6 都 是 树 的 例子 。 

“有 且 仅 有 一 个 根 节 点 ， 根 节点 没有 父 节点 ， 出 现在 树 的 最 顶端 。 没 有 子 节点 的 节点 

称 为 叶 节点 ， 不 是 叶 节 点 的 节点 叫做 内 部 节点 或 内 节点 。 

“一 个 节点 的 子 节点 的 子 节点 的 …… 叫 作 该 节点 的 后 代 ， 一 个 节点 的 父 节点 的 父 节点 

的 池 字 则 作 该 节点 的 祖先 。 一 般 来 说 ， 一 个 节点 同时 也 是 其 自身 的 祖先 和 后 代 。 

“一 个 节点 的 子 节点 按照 从 左 到 右 的 顺序 排列 和 画 出 。 如 果 一 个 节点 N 在 另 一 个 节点 M 

的 左边 ， 那 么 所 有 N 的 后 代 都 被 排 在 所 有 M 的 后 代 的 左边 。 











5.2.1 构造 语法 分 析 树 


对 于 文法 G = (V, T, P, 3) 来 说 ，G 的 语法 分 析 树 是 满足 下 列 条 件 的 树 : 
1. 每 个 内 部 节点 的 标号 是 Y 中 的 一 个 变 元 。 
2. 每 个 叶 节点 的 标号 可 以 是 一 个 变 元 、 一 个 终结 符 或 者 es。 但是， 如 果 叶 节点 的 标号 是 e， 


那么 它 一 定 是 其 父 节点 惟一 的 子 节点 。 
3. 如 果 某 个 内 部 节点 的 标号 是 4， 并 且 它 的 子 节点 的 标号 从 左 到 右 分 别 为 : 
T Xo Xn Xe 


那么 4 一 Xi … 卫 一 定 是 P 中 的 一 个 产生 式 。 注 意 : 如 果 其 中 某 个 X 为 es， 那么 不 - 定 是 4 惟一 
的 子 节点 ， 并 且 4 一 是 G 的 一 个 产生 式 。 


例 5.9 ”图 5-4 给 出 了 一 棵 语法 分 析 树 ， 它 所 使 用 的 文法 是 图 5-2 中 的 表达 式 文法 。 它 的 根 节 
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点 的 标号 是 变 元 E。 因 为 根 节点 的 三 个 子 节点 的 标号 从 左 到 右 分 别 为 E，+ 和 E， 因 此 在 根 节点 处 
使 用 的 产生 式 是 E 一 E+ E。 在 根 节点 最 左边 的 子 节点 处 ， 因 为 该 节点 只 有 一个 标号 为 的 子 节点 ， 
所 以 它 使 用 的 产生 式 是 E 一 1。 口 


例 5.10 ”图 5-5 给 出 的 是 图 5-1 中 回 文 文法 的 一 棵 分 析 树 。 根 节点 处 使 用 的 产生 式 是 P 一 
OPO, 根 节点 的 中 间 子 节点 处 使 用 的 产生 式 是 P 一 1P1。 注意 最 下 面 的 节点 使 用 的 产生 式 是 P 一 e， 
并 且 该 节点 只 有 一 个 标号 为 e 的 子 节点 ， 这 也 是 能 在 语法 分 析 树 中 使 用 标号 为 的 节点 的 惟一 


情况 。 口 

P 

E 0 P 0 

WAP BEANE 

E + E 1 P 1 
| | 
J e 

图 5-4 表示 从 E 推 导出 1+ E 的 语法 分 析 树 图 5-5 表示 推导 P 二 0110 的 语法 分 析 树 


5.2.2 语法 分 析 树 的 产生 


如 果 看 到 任意 一 棵 语法 分 析 树 的 所 有 叶子 的 标号 ， rs indi 
就 可 以 得 到 一 个 串 ， 这 个 串 称 作 该 树 的 产物 ， 其 实 它 总 是 根 节 
点 处 的 变 元 所 能 推导 出 来 的 串 ， 这 一 点 后 面 会 给 出 证 明 。 特 别 


重要 的 是 有 一 些 满足 以 下 条 件 的 语法 分 析 树 ; E 
1 它 的 产物 是 终结 符 串 ， 即 所 有 叶 节 点 的 标号 都 是 终结 符 | wae 
或 者 e。 I 
2. 根 节点 的 标号 是 初始 符号 。 | hapt 


这 些 语法 分 析 树 的 产物 都 是 相应 文法 的 语言 中 的 串 。 稍 后 会 证 a 
明 搞 述 一 个 文法 的 语言 的 另 一 种 方法 恰好 是 所 有 以 初始 符号 为 i i 


根 、 产 物 是 终结 符号 由 的 语法 分 析 树 的 产物 的 集合 。 1 1 
例 5.11 图 5-6 正 是 一 个 初始 符号 为 根 、 产 物 是 一 个 终结 符 | AN 
串 的 树 的 例子 。 它 所 基于 的 文法 是 图 5-2 中 介绍 的 表达 式 的 文法 。 f JX 
这 棵 树 的 产物 是 在 例 5.5 中 推导 出 来 的 囊 a * (a + 500)。 实 际 上 正 
如 将 会 看 到 的 ， 这 棵 语法 分 析 树 恰好 就 是 那个 推导 的 一 种 表 | 
示 。 口 
b 
图 5-6 表明 串 a* (a + b00) 在 表达 
SASi REREN 式 文法 的 语言 中 的 语法 分 析 桂 


迄今 为 止 我 们 介绍 了 几 种 描述 一 个 文法 怎样 工作 的 概念 ， 实 质 上 它们 都 描述 了 串 的 同样 的 
































186| 
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性 质 。 也 就 是 说 ， 给 定 一 个 文法 G = (V,T,P, 5)， 应 该 能 够 证 明 下 面 几 点 是 等 价 的 : 
1. 递 归 推 理 过 程 确定 终结 符 串 w 在 变 元 4 的 语言 中 。 
2. Abw. 


3. A>w. 
zt 


4. Aswe 

5. 存在 根 结 节 为 4、 产 物 为 w 的 语法 分 析 树 。 
事实 上 ，w 为 包含 变 元 的 串 ， 除 了 递归 推理 的 使 用 被 定义 为 仅 限于 终结 符 串 以 外 ， 所 有 其 他 的 条 
件 (存在 推导 、 最 左 推导 或 最 右 推导 以 及 分 析 树 ) 都 是 等 价 的 。 

这 些 等 价 性 需要 证 明 ， 我 们 打算 用 图 5-7 中 的 顺序 来 证 明 它们 。 也 就 是 说 ， 图 5-7 中 的 每 条 箭 
弧 表示 要 证 明 的 一 个 定理 ; 如 果 w 满 足 箭 弧 尾部 的 条 件 ， 那 么 它 就 满足 箭 弧 头 部 的 条 件 。 比 如 ， 
在 定理 5.12 中 将 证 明 : 如 果 通过 递归 推理 能 得 出 w 在 4 的 语言 中 ， 则 一 定 存在 一 棵 根 为 4、 产 物 为 
w 的 语法 分 析 树 。 


最 左 推导 =< 语 法 分 析 树 


TE ea 


下 一 最 右 推导 


图 5-7 证 明 关于 文法 的 一 些 命题 的 等 价 性 


注意 ， 其 中 有 两 条 往 弧 比较 简单 ， 因 此 就 不 作 形 式 化 的 证 明了 。 如 果 w 有 一 个 从 A 开始 的 
最 左 推导 ， 那 么 它 肯 定 有 一 个 从 4 开始 的 推导 ， 因 为 最 左 推导 本 身 同时 也 是 推导 ， 类 似 地 ， 如 
果 w 有 一 个 最 右 推导 ， 那 么 它 显 然 也 有 一 个 推导 。 下 面 会 依次 证 明 这 些 等 价 性 中 剩 下 的 比较 难 
的 部 分 。 


5.2.4 从 推理 到 树 


定理 5.12 WRG = (V, T, P, 5) 是 一 个 CFG。 如 果 通 过 递归 推理 过 程 得 出 终结 符 囊 w 在 变 元 A 的 
语言 中 ， 则 一 定 存在 一 棵 根 为 4、 产 物 为 w 的 语法 分 析 树 。 

证 明 对 推理 的 步 数 进行 归纳 。 

基础 : 若 该 推理 只 有 一 步 ， 则 该 推 理 过 程 只 需 使 用 基础 ， 因 此 一 定 存在 产生 式 4 一 w。 图 5-8 中 
的 树 满足 成 为 文法 G 的 语法 分 析 树 的 条 件 ， 其 中 mw 的 每 个 位 置 有 一 个 叶子 。 显 然 ， 它 的 根 是 4， 产 物 
是 w。 考 虑 特例 w = se， 那么 这 棵 树 只 有 一 个 标号 为 的 叶子 ， 此 时 同样 满足 根 是 A 上 且 产 物 是 w 的 条 件 。 

归纳 : 假定 在 n + 1 个 推理 步 又 之 后 能 够 得 出 w 在 4 的 语言 里 这 个 事实 ， 并 且 这 个 定理 对 于 使 
得 8 的 语言 中 的 x 成 员 用 小 于 等 于 " 步 推理 推 得 的 所 有 串 zx 和 变 元 B 成 立 ; SERA TEAR ES 
这 个 推理 的 最 后 一 步 ， 这 一 步 使 用 了 4 的 某 个 产生 式 ， 不 妨 设 为 4 一 XiX2… 环 ， 其 中 马 或 者 是 一 
个 终结 符 或 者 是 一 个 变 元 。 
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我 们 把 w 打 断 为 wwa…ws， 其 中 : 

1 如 果 站 是 一 个 终结 符 ， 则 w= 基 ， 即 ww 只 由 产生 式 中 的 这 个 终结 符 组 成 。 

2. 如 果 Xi 是 一 个 变 元 ， 则 wi 是 一 个 先前 推理 出 在 X, 的 语言 中 的 
捉 。 也 就 是 说 ， 得 出 w 属 于 A 的 语言 的 n+ 1 步 推理 中 ， 关 于 wi 
的 推理 至 多 占用 了 其 中 的 n 步 ;之 所 以 它 不 能 占用 全 部 的 2 + 。 7 EX 
1 步 ， 是 因为 最 起 码 在 最 后 一 步 使 用 的 产生 趟 是 XU 一- w 
而 它 肯定 不 是 关于 几 的 推理 中 的 一 部 分 。 因 此 ， 我 们 可 以 对 图 $8 定理 5.12 的 证 明 中 基 
wi 和 Xi 应 用 归纳 假设 ， 从 而 得 出 结论 ， 存 在 一 个 根 为 %、 产 。 。” 础 情况 下 所 构造 的 树 
物 为 w 的 语法 分 析 树 。 

接 下 来 我 们 构造 一 棵 根 为 4 并 且 产 物 为 w 的 树 ， 如 图 5-9 所 示 。 根 节点 的 标号 为 4， 它 的 子 节 

点 分 别 为 入 ,入 ，…, 把。 因为 A 一头 %… 总 是 G 的 一 个 产生 式 ， 所 以 这 种 选择 是 有 效 的 。 
每 个 节点 % 实 际 上 是 一 个 产物 为 wi 的 子 树 的 根 节点 。 


在 情况 (1) 中 X% 是 终结 符 ， 这 棵 子 树 就 变 成 了 一 棵 只 有 一 eerie rae 


个 标号 为 X 的 节点 的 平凡 树 。 也 就 是 说 ， 这 棵 子 树 仅 由 





ee x, 
该 根 节点 这 一 个 节点 构成 。 因 为 wi = X:， 所 以 在 情况 (1) 
中 该 子 树 的 产物 为 w 的 条 件 也 是 满足 的 。 /\ A /\ 
在 情况 (2 中， 六 是 一 个 变 元 。 继 续 使 用 归纳 假设 可 wl W2 vs Wk 
以 得 出 一 棵 根 为 和 %、 产 物 为 w 的 树 ， 且 这 棵 树 被 接 到 节 S9 定理 5.12 的 证 明 中 归纳 部 分 
点 加 上 ( 见 图 5-9)。 ti 
至 此 ， 这 棵 树 已 经 构造 好 了 ， 它 的 根 节点 为 4， 把 根 节点 所 有 子 树 的 产物 从 左 到 右 连 接 起 来 
就 得 到 整 棵 树 的 产物 ， 正 好 是 ww…wx， 也 就 是 w。 o 


5.2.5 从 树 到 推导 


现在 我 们 展示 怎样 从 一 棵 语法 分 析 树 构造 一 个 最 左 推导 。 构 造 最 右 推导 的 方法 与 此 相同 ， 
因此 我 们 就 不 再 证 明 从 语法 分 析 树 构造 最 右 推导 的 情况 。 为 了 理解 推导 的 构造 过 程 ， 首 先 来 看 
看 从 一 个 变 元 到 一 个 串 的 某 个 推导 怎样 能 够 被 嵌入 另 一 推导 中 。 有 一 个 例子 可 说 明 这 一 点 。 


例 5.13 再 一 次 考虑 图 5-2 中 的 表达 式 文法 。 很 容易 验证 存在 下 面 的 推导 : 
E=>1= lb=ab 
推 而 广 之 ， 对 任意 的 串 a 和 B， 下 面 的 推导 也 都 成 立 : 
QEP = al = albB = aabpB 


理由 是 这 种 用 产生 式 的 体 来 替换 头 的 方法 既 可 用 在 单独 的 变 元 上 ， 也 可 用 在 任意 的 上 下 文 c 和 p 
中 5 


例如 ， 如 果 有 一 个 推导 ， 其 开头 两 步 是 一 E+E 一 E+(E)， 那 么 就 可 以 通过 把 “E+ (” 
O 事实 上 ， 术 语 “ 上 下 文 无 关 ” 正 是 由 于 这 种 无 需 考虑 上 下 文 就 能 进行 的 串 对 变 元 的 赫 换 的 性 质 才 得 来 的 。 另 


外 还 有 一 类 更 强 的 文法 ， 称 为 “上 下 文 相关 "， 这 种 文法 中 的 替换 只 有 当 一 定 的 串 出 现在 被 震 换 的 囊 的 左边 和 
(R) 右边 时 才能 进行 。 当 前 ， 上 下 文 相关 文法 在 实际 应 用 中 并 不 占 主 要 地 位 。 
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看 作 a， 把 “)” 看 作 B， 对 中 间 的 E 应 用 上 面 关于 ab 的 推导 ， 因 而 可 以 得 到 : 
E+(E)=> E+(I)= E+(Ib)=> E+ (ab) 口 


现在 就 可 以 着 手 证 明 能 够 把 语法 分 析 树 转换 成 最 左 推导 的 定理 了 。 这 个 证 明 是 通过 对 树 的 
高 度 进行 归纳 来 完成 的 ， 其 中 树 的 高 度 是 指 从 根 节点 顺 着 父子 关系 到 叶 节 点 的 最 长 的 路 程 。 例 
如 ， 图 5-6 中 树 的 高 度 是 7， 最 长 的 根 到 叶子 的 路 径 是 到 标号 为 b 的 叶子 的 路 径 。 注 意 ， 习 惯 上 路 
径 长 度 计算 的 是 该 路 径 上 的 边 数 ， 而 不 是 项 点数 ， 因 此 一 个 单个 节点 的 路 径 的 长 度 为 0。 


定理 5.14 kG = (V, T, P, 5) 是 一 个 CFG， 假设 有 一 棵 语法 分 析 树 ， 它 的 根 的 标号 为 变 元 A、 

产物 为 w， 其 中 w 属 于 7。 那 么 一 定 存在 一 个 文法 G 中 的 最 左 推导 Azwe 

证 明 对 树 的 高 度 进行 归纳 。 

基础 : 归纳 基础 是 高 度 1，1 是 产物 为 终结 符 的 语法 分 析 树 高 的 最 小 值 。 在 这 种 情况 下 ， 这 

棵 树 一 定 和 图 5-8 中 的 树 类 似 ， 根 节点 的 标号 为 4， 而 且 它 的 子 节点 从 左 到 右 连 起 来 为 w。 由 于 这 
棵 树 是 一 棵 语法 分 析 树 ， 因 此 4 一 w 一 定 是 一 个 产生 式 。 因 此 ， 4 之 w 是 从 4 到 w 的 单 步 完成 的 最 
左 推导 。 

归纳 ， 如 果树 的 高 度 是 n"， 其 中 n > 1， 它 一 定 和 图 5-9 中 的 树 类 似 。 也 就 是 说 ， 根 节点 的 标 

号 为 4， 它 的 子 节点 的 标号 从 左 到 右 分 别 为 Xu Xa, …,Xes， 其 中 这 些 X 可 以 是 变 元 或 者 终结 符 。 

1, 如 果 X% 是 终结 符 ， 定 义 wi 为 只 包含 % 的 串 。 

2. 如 果 % 是 变 元 ， 那 么 它 一 定 是 某 个 产物 为 终结 符 w, 的 子 树 的 根 节点 。 注 意 ， 在 这 种 情况 
下 ， 这 棵 子 树 的 高 度 一 定 小 于 na， 因此 可 以 对 它 使 用 归纳 假设 。 也 就 是 ， 存 在 一 个 最 左 推 
HX, 

EW, w= wiw we 
下 面 构造 一 个 w 的 最 左 推导 。 首 先 从 AXX X, 开始 ， 接 着 对 于 每 个 ; = 1,2,…,k， 依 次 
证 明 


Ax ww, WX XX, 


这 部 分 证 明 实 际 上 是 另外 一 个 归纳 法 ， 不 过 这 次 是 对 i 进行 归纳 。 对 于 归纳 基础 i = 0， 已 知 
的 AXX, X, 。 对 于 归纳 部 分 ,假定 


+X, 


Ax ww, Ww XXX, 


a) 如 果 X 是 终结 符 那 就 什么 都 不 做 。 然 而 ， 下 一 步 中 把 X 看 作 终 结 符 串 w,。 从 而 可 以 得 到 


A Ww 


b) 如 果 X, 是 变 元 ， 那 么 继续 从 Xi 到 wi 的 推导 ， 不 过 这 次 使 用 已 经 构造 好 的 推导 的 上 下 文 。 
也 就 是 说 ， 如 果 这 个 推导 为 


X, >a, >a, =w, 
Cia ia es 


我 们 就 继续 下 面 的 推导 : 
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WWW aA Xr Xe 
WW WX MS 
WWW, OX 


WW, WX Xia Xs 


这 个 结果 就 是 需要 的 推导 APW WX Ke, 
光 i= 人 |， 这 个 结果 就 是 从 4 到 w 的 最 左 推导 。 o 


例 5.15 ”构造 图 5-6 中 的 语法 分 析 树 的 最 左 推导 。 我 们 只 展示 最 后 一 步 : 在 已 经 把 根 节点 的 
所 有 子 树 所 对 应 的 推导 都 构造 好 了 的 前 提 下 ， 剩 下 要 做 的 工作 只 是 给 出 整 棵 树 所 对 应 的 推导 。 
也 就 是 说 ， 假 设 通过 递归 地 使 用 定理 5.14 中 的 技术 ， 已 经 得 到 了 以 根 节 点 的 第 一 个 子 节点 为 根 
的 子 树 对 应 的 最 左 推导 E 一 1 全 2 ， 同 时 得 到 了 以 根 节点 的 第 三 个 子 节点 为 根 的 子 树 对 应 的 最 
左 推 导 
E>(E) (E+ E)=>(1 +E)>(a+ E) 
(a+ Dalar 10)=>(a+ 100)=>(a +b00) 


为 了 构造 整 棵 树 的 最 左 推导 ， 首 先 在 根 处 使 用 BE 之 E*E ， 然 后 用 它 的 推导 代替 第 一 个 E， 
并 且 在 每 步 中 都 用 *E 作 为 下 文 来 说 明 使 用 这 个 推导 的 较 大 的 上 下 文 。 这 样 得 到 的 最 左 推导 为 


E=>E*E=I*E=>a*E 
如 = = 


在 根 处 使 用 的 产生 式 中 的 * 不 用 推导 ， 所 以 上 面 的 最 左 推导 也 说 明 根 节 点 的 前 两 个 子 节点 。 
为 了 完成 整个 最 左 推导 ， 接 着 使 用 推导 E-(a+b00), 并 且 在 每 步 中 都 把 ax 加 在 前 面 ， 后 面 再 
加 上 一 个 空 电 。 这 个 推导 实际 上 在 例 5.6 中 已 经 出 现 过 了 ， 就 是 : 
E> E*E>1*E>a*E=> 
a*(E)=>a*(E + E)>a*(1+ E)>a+(a+ Ej 


a*(a+1)=a+(a+10)=>a*(a+ 100)=>a* (a + b00) o 


类 似 地 ， 有 一 个 定理 可 以 保证 把 语法 分 析 树 转化 为 最 右 推导 。 从 树 构造 最 右 推导 的 过 程 和 
最 左 推导 的 构造 过 程 几乎 完全 相同 。 只 是 ， 在 第 一 步 4 大 X%…XX 开始 后 ， 先 使 用 最 右 推导 扩 
展 Xt， 然 后 扩展 Xi-:， 依 此 类 推 ， 最 后 才 是 书 。 因 此 ， 此 处 不 给 出 进一步 的 证 明 。 


定理 5.16 设 G =(V,7,P,5) 是 一 个 CFG， 假 设 有 一 棵 语法 分 析 树 ， 其 根 的 标号 为 变 元 4、 产 
物 为 w， 其 中 w 属 于 7。 那 么 一 定 存在 一 个 文法 G 中 的 最 右 推 导 Aw 。 o 


5.2.6 ”从 推导 到 递归 推理 


现在 距离 完成 图 5-7 中 的 整个 环 路 只 差 这 一 点 了 : 如 果 对 某 个 CFG 有 一 个 推导 Aw, IBZ 
一 定 可 以 在 递归 推理 过 程 中 发 现 w 在 4 的 语言 中 这 一 事实 。 在 给 出 相应 的 定理 及 其 证 明之 前 ， 首 
先 看 看 推导 的 一 些 重要 性 质 。 
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假设 有 一 个 推导 A XX, X 这 w， 那 么 一 定 可 以 把 w 打 断 成 w = www (EEX, Sw, o 
注意 ， 如 果 % 是 终结 符 ， 那 么 w;= X， 并 且 访 推导 只 有 零 步 。 这 个 事实 的 证 明 并 不 难 ， 只 要 对 推 
导 的 步 数 进行 归纳 即 可 证 明 : 如 果 XX X Sa, MARTER <j, ah MA hX p RK 
位 置 一 定 在 所 有 由 为 扩展 来 的 位 置 的 左边 。 

如 果 % 是 一 个 变 元 ， 则 可 以 通过 如 下 方法 获得 推导 XX 二 w，: 首先 从 推导 Aw 开始 ， 然 后 
去 掉 以 下 内 容 : 

a) 所 有 在 句 型 中 由 XX 推导 出 的 位 置 的 左边 和 右边 的 位 置 ， 以 及 

b) 所 有 与 从 X 推 导出 w 无 关 的 步骤 。 

为 了 看 清 这 个 过 程 ， 下 面 是 一 个 例子 。 


例 5.17 对 于 图 5-2 中 的 表达 式 文法 ， 考 虑 如 下 推导 : 
EE*E=>E*E+E=I*E+E=I*I+E= 
1*1+T 一 ax1+1 一 arb+1 一 Gyrb+a 
考虑 其 中 第 三 个 句 型 E * E+ E 和 该 句 型 中 间 的 E。。 
ME * E +E 开始， 按照 上 面 推 导 中 的 步 双 但 是 要 去 掉 所 有 由 中 间 的 E 左 边 的 E* 和 右边 的 
+E 所 推导 出 来 的 位 置 。 那 么 上 面 推导 中 的 步骤 就 变 成 了 书 , E, 1, 7, 1, b,b。 也 就 是 说 ， 下 一 步 中 并 
没有 改变 中 间 的 E， 在 接 下 来 的 一 步 中 把 它 变 成 了 1， 然后 的 两 步 中 保持 为 /不 变 ， 接 着 把 它 变 成 
5b， 并 且 在 最 后 一 步 中 保持 不 变 。 
如 果 只 考虑 从 中 间 那 个 E 的 推导 中 变化 的 部 分 ， 那 么 序列 E, E, 1, 1, I, b, b 就 变 成 了 推 
导 E>1=>b。 这 个 推导 准确 地 刻画 了 中 间 的 E 在 整个 推导 过 程 中 的 变化 情况 。 


定理 5.18 设 C= (WiT; P, 9 是 一 个 CFG， 假 设 有 一 个 推导 4 二 yw ， 其 中 w 属 于 7。 那么 应 用 
于 G 的 递归 推理 过 程 决定 了 w 在 变 元 4 的 语言 中 : 
证 明 对 推导 4 之 w 的 长 度 进行 归纳 。 
基础 ， 如 果 该 推导 只 有 一 步 ， 那 么 4 一 w 一 定 是 一 个 产生 式 。 由 于 w 只 包含 终结 符 ， 因 此 由 
递归 推理 过 程 的 基础 部 分 就 可 以 得 出 w 在 4 的 语言 中 的 事实 。 
归纳 ， 假 设 该 推导 包含 ” + 1 步 ， 并 且 假 定 对 于 所 有 少 于 或 等 于 n 步 的 推导 来 说 命题 都 成 立 。 
把 推导 写 为 4 才 关 XX… 关 过 w。 然 后 ， 根 据 该 定理 之 前 的 讨论 ， 我 们 可 以 把 w 打 断 为 w = ww 
Wey 其中; 
D 如 果 思 是 终结 符 ， 则 wi = Xis 
b) 如 果 % 是 变 元 ， 那 么 有 X Sw, HAE 4 二 w 的 第 一 步 肯 定 不 是 推导 X >w, 中 的 一 
部 分 ， 因 此 可 知 这 个 推导 只 有 少 于 等 于 n 步 。 因 此 ， 对 它 使 用 归纳 候 设 可 以 推理 出 汉 在 % 
的 语言 中 。 
现在 已 经 有 了 产生 式 A 一 XiXs…X， 其 中 wi 或 者 等 于 X% 或 者 可 知 在 % 的 语言 中 。 在 下 一 轮 的 


递归 推理 过 程 中 ， 就 可 以 知道 ww2…w 在 A 的 语言 中 。 因 为 wiw2…wi = w， 因 此 可 以 推理 出 w 在 4 


日 ”在 从 大 的 推导 过 程 中 找 出 一 些 子 推导 过 程 的 讨论 中 ， 假 定 我 们 所 关心 的 是 一 些 推导 的 第 二 个 句 型 中 的 变 元 。 
然而 ， 这 种 思想 对 于 一 个 推导 中 的 任何 一 步 中 的 变 元 都 是 成 立 的 。 
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的 语言 中 。 口 
5.2.7 习题 


习题 5.2.1 对 于 习题 5.1.2 中 的 文法 和 每 个 串 ， 给 出 相应 的 语法 分 析 树 。 
! 习题 5.2.2 假设 G 是 一 个 CFG， 并且 它 的 任何 一 个 产生 式 的 右边 都 不 是 e。 如 果 w 在 LG) 中 ,，w 
的 长 度 是 x，w 有 一 个 m 步 完成 的 推导 ， 证 明 w 有 一 个 包含 n+ m 个 节点 的 分 析 树 。 
! 习题 5.2.3 “假设 在 习题 522 中 除了 G 中 可 能 有 右 端 为 的 产生 式 外 其 他 所 有 的 条 件 都 满足 ， 证 
明 此 时 w (w 不 是 e) 的 语法 分 析 树 有 可 能 包含 n+ 2m 一 1 个 节点 ， 但 不 可 能 更 多 。 
! 习题 5.2.4 ”在 5.2.6 节 中 提 到 了 : ME X,X,X, 过 a ， 那 么 对 于 任意 的 i < j，a 中 所 有 由 为 扩 
展 来 的 位 置 一 定 在 所 有 由 为 扩展 来 的 位 置 的 左边 。 试 证 明 这 一 点 。 提 示 : 对 推导 的 步 数 进行 归纳 。 


5.3 上 下 文 无 关 文法 的 应 用 


上 下 文 无 关 文法 最 初 是 由 乔 姆 斯 基 (N. Chomsky) 构想 出 来 用 于 描述 自然 语言 的 ， 这 个 愿 
望 还 没有 被 实现 。 然 而 ， 由 于 计算 机 科学 中 递归 定义 的 概念 被 频繁 地 使 用 ， 所 以 把 CRG 作为 描 
述 这 些 概念 实例 的 方法 也 很 有 必要 。 下 面 将 粗略 地 给 出 众多 应 用 中 的 两 个 ， 一 个 较 老 的 应 用 和 
一 个 比较 新 的 应 用 。 

1. 用 文法 来 描述 编程 语言 。 比 这 更 重要 的 在 于 ， 存 在 着 机 械 化 的 方式 把 用 CFG 描 述 的 语言 

变 为 语法 分 析 器 ， 语 法 分 析 器 是 编译 器 的 一 部 分 ， 它 用 来 发 现 源 程 序 中 的 结构 并 且 把 该 
结构 表示 成 为 语法 分 析 树 。 这 是 最 旱 的 CFG 的 应 用 之 一 ， 事 实 上 它 也 是 最 早 把 计算 机 科 
学 中 的 理论 付 诸 于 实践 的 方法 之 一 。 

2. 人 们 普遍 认为 XML 能 够 促进 电子 商务 的 发 展 , XML 能 够 帮助 参与 电子 商务 的 双方 在 定单 、 
产品 描述 以 及 许多 其 他 方面 的 文档 中 采用 规范 、 通 用 的 格式 。XML 中 最 为 精华 的 部 分 就 
是 DTD， 而 它 实 质 上 就 是 一 个 上 下 文 无 关 文法 ， 只 不 过 该 文法 描述 了 哪些 是 文档 中 允许 
出 现 的 标记 符 (Tag) 以 及 这 些 标记 符 在 文档 中 能 够 怎样 地 榜 套 起 来 。 标 记 符 是 一 些 用 尖 
括号 括 起 来 的 常见 的 关键 字 ， 读 者 可 能 在 HTML 中 见 过 ， 例 如 ，<EM> 和 </EM> 所 括 住 的 
文本 ， 它 是 需要 强调 的 。 不 过 ，XML 的 标记 符 不 是 用 来 控制 文本 的 格式 的 ， 而 是 和 文本 
的 含义 有 关 。 例 如 ， 如 果 你 想 要 表示 一 个 字符 序列 是 电话 号 码 ， 就 可 以 用 <PHONE> 和 
</PHONE> 来 括 住 它们 。 


5.3.1 语法 分 析 器 


编程 语言 的 许多 方面 都 有 能 用 正则 表达 式 描述 的 结构 。 例 如 ， 例 3.9 中 讨论 的 标识 符 就 可 以 
用 正则 表达 式 来 表示 。 然 而 ， 典 型 的 编程 语言 中 也 都 有 一 些 无 法 仅 用 正则 表达 式 就 能 表达 的 非 
常 重要 的 方面 。 下 面 就 是 两 个 例子 。 


例 5.19 ”典型 的 编程 语言 中 都 使 用 括号 ， 并 且 一 般 都 是 嵌 套 地 、 匹 配 地 使 用 。 所 谓 匹 配 就 
是 : 找到 一 个 左 括号 和 一 个 在 它 后 面 且 紧 跟着 它 的 右 括 号 ， 同 时 去 掉 这 两 个 括号 ， 并 自重 复 这 








193) 
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个 过 程 ， 那 么 最 终 应 该 能 够 去 掉 所 有 的 括号 。 如 果 在 这 个 过 程 中 找 不 到 一 对 匹配 的 括号 ， 那 么 
这 个 串 中 的 括号 就 是 不 匹配 的 。 括 号 匹配 的 串 如 (OD)、00、(00) 和 es， 不 匹配 的 如 X 和 (0。 

有 一 个 文法 Guu = ({B}, {(, )}, P, B) 刚 好 能 够 生成 所 有 的 括号 匹配 的 串 ， 其 中 P 包 含 如 下 的 产 

ER: 

B—BB | (B) | € 
其 中 第 一 个 产生 式 B 一 BB 是 说 : 把 两 个 括号 匹配 的 串 连 接 起 来 得 到 的 串 仍然 是 括号 匹配 的 。 这 
样 的 断言 是 有 意义 的 ， 因 为 我 们 可 以 分 别 对 这 两 个 串 进行 匹配 。 第 二 个 产生 式 B 一 (B) 是 说 ; 把 
一 个 括号 匹配 的 串 用 一 对 括号 括 起 来 所 得 到 的 串 仍然 是 括号 匹配 的 。 同 样 这 样 的 断言 也 是 有 意 
义 的 ， 因 为 如 果 中 间 的 串 是 匹配 的 ， 那 么 把 它 里 面 所 有 的 括号 都 去 掉 后 就 只 剩 下 最 外 边 的 一 对 
括号 ， 而 此 时 它们 仍然 是 匹配 的 。 第 三 个 产生 式 B 一 是 基础 ， 它 是 说 空 串 是 括号 匹配 的 。 

上 面 这 段 非 形式 化 的 论证 应 该 能 够 使 人 相信 Gu 产生 的 确实 是 所 有 的 括号 匹配 的 串 。 反 过 来 
需要 证 明 一 一 每 个 括号 匹配 的 串 都 能 够 由 这 个 文法 产生 。 不 过 ， 这 个 证 明 并 不 难 ， 只 需要 对 括 
号 匹配 的 圳 的 长 度 进行 归纳 即 可 ， 因 此 我 们 把 该 证 明 的 细节 留 给 读者 作为 练习 。 

前 边 曾经 提 到 过 所 有 括号 匹配 的 串 的 集合 不 是 正则 语言 ， 现 在 证 明 这 一 事实 。 如 果 L(Gu' ) 
是 正则 的 ， 那 么 根据 正则 语言 的 泵 引 理 ， 一 定 存在 一 个 和 该 语言 相关 的 常数 r。 考 虑 括号 匹配 的 
串 w = CC)"， 也 就 是 n 个 左 括号 后 面 跟着 "个 右 括号 。 如 果 根 据 泵 引 理 把 w 打 断 为 w = xyz， 那 么 y 只 
包含 左 括号 ， 因 此 串 区 中 右 括号 就 比 左 括号 多 了 ， 因 而 xz 不 是 括号 匹配 的 ， 这 跟 括 号 匹配 的 串 的 
语言 是 正则 语言 的 假设 相 矛 盾 。 口 


当然 ， 除 了 括号 之 外 ， 编 程 语言 中 还 包含 许多 其 他 的 东西 ， 但 是 括号 确实 是 算术 或 条 件 表 
达 式 中 一 个 基本 的 组 成 部 分 。 虽 然 图 5-2 中 的 文法 中 只 用 了 两 个 运算 符 (加 号 和 乘 号 ) ， 并 且 它 
包含 了 详细 的 标识 符 的 结构 ， 该 结构 使 用 3.3.2 节 中 提 到 的 编译 器 的 词法 分 析 器 部 分 来 进行 处 理 
可 能 是 比较 适合 的 ， 但 它 仍然 是 算术 表达 式 的 非常 典型 的 结构 。 然 而 ， 图 5-2 中 描述 的 语言 也 不 
是 正则 的 。 例 如 ， 在 这 个 语言 中 ，("a)” 是 合法 的 表达 式 。 可 以 通过 和 泵 引 理 来 证 明 ， 如 果 这 个 语 
言 式 正则 的 ， 那 么 去 掉 一 些 左 括号 同时 保持 < 和 所 有 的 右 括号 不 动 ， 这 样 得 到 的 串 应 该 仍然 是 合 
法 表达 式 ， 然 而 实际 上 不 是 。 

典型 的 编程 语言 中 有 很 多 方面 跟 括 号 匹配 很 相似 。 一 般 来 说 它们 本 身 也 是 括号 ， 可 以 在 各 
种 类 型 的 表达 式 中 。 例 如 ， 一 个 代码 块 的 开始 和 结束 ， 就 像 Pascal 语 言 中 的 begin 和 end， 或 者 C 
语言 中 的 花 括 号 (…}。 也 就 是 说 ， 如 果 把 C 程 序 中 的 花 括号 替换 为 加 括号 ， 即 把 { 换 为 (， 把 } 换 
为 ) ， 这 样 所 得 到 的 串 一 定 是 括号 匹配 的 。 

有 时 会 出 现 另 外 一 种 相关 的 模式 ， 只 不 过 在 这 种 模式 中 “括号 ”匹配 时 不 考虑 未 被 匹配 的 
左 括号 。 比 如 C 语 言 中 处 理 f 和 else 的 时 候 ， 一 个 过 子 句 可 以 不 和 else 子 句 匹 配 而 单独 存在 ,也 可 
以 和 一 个 else 子 名 匹配 。 一 个 生成 所 有 这 样 可 能 的 让 和 else 的 序列 的 文法 〈 其 中 if 和 else 分 别 用 je 
来 表示 ) 是 : 

Sel SS 1 iS \iSeS 

例如 ，ieie, iie 和 iei 都 是 可 能 的 if 和 else 的 序列 ， 而 且 都 是 用 上 面 的 文法 生成 的 。 也 有 一 些 不 

能 用 该 文法 生成 的 非法 序列 ， 比 如 ei 和 lieeii。 
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对 于 一 个 由 ie 组 成 的 串 是 否 能 有 该 文法 生成 ， 有 一 个 简单 的 测试 方法 一 一 只 需要 从 左边 开 
始 依次 检查 每 个 e 即 可 ， 具 体 方法 如 下 《该 方法 正确 性 的 证 明 留 给 读者 作为 练习 ): 在 正在 考虑 
的 e 的 左边 寻找 第 一 个 i， 如 果 找 不 到 ， 那 么 这 个 串 就 无 法 通过 该 测试 ， 因 而 得 出 它 不 在 该 语言 中 
的 结论 。 如 果 找 到 了 这 个 i， 那 么 就 把 它 和 正在 考虑 的 e 一 起 去 掉 ， 然 后 继续 重复 这 个 过 程 : 如 果 
没有 e 了 ， 那 么 这 个 串 就 通过 了 这 个 测试 ， 因 而 得 出 它 在 该 语言 中 的 结论 。 如 果 还 有 e， 那 么 就 
继续 对 最 左边 的 e 进 行 上 面 的 检查 过 程 。 





例 5.20 考虑 串 fe， 第 一 个 与 它 左 边 的 i 严 配 ， 把 它们 去 掉 后 该 蝇 「 ie 条 和 
变 成 了 e。 由 于 还 有 e， 因 此 要 继续 进行 检查 ， 但 这 次 没有 i 在 它 左边 了 ， By 
因此 测试 失败 了 ， 所 以 iee 不 在 该 语言 中 。 注 意 ， 这 个 结论 是 正确 的 ， it (条 件 ) 语 名; 
因为 在 C 程 序 中 else 的 个 数 不 可 能 比 f 多 。 EY 
再 来 看 一 个 例子 ， 考 虑 iieie。 第 一 个 e 跟 它 左边 的 匹配， 把 它们 去 if (条 件 ) 语 句 ; 
掉 后 还 剩 下 iie。 这 个 e 继 续 和 它 左 边 的 匹配， 再 把 它们 去 掉 后 还 剩 下 i， siss Uy 
这 时 没有 e 了 ， 因 此 测试 成 功 通过 。 这 个 结论 也 是 有 意义 的 ， 因 为 iieie | | on 











所 对 应 的 C 程 序 的 结构 就 像 图 5-10 中 的 结构 。 事 实 上 ， 这 个 匹配 算法 同 - 
时 也 能 告诉 我 们 (及 C 编 译 器 ) 每 个 if 所 匹配 的 的 else (如 果 有 的 话 ) 图 10 一 个 fle 结构， 


其 中 的 两 个 else 分 别 和 它 
到 底 是 哪个 ， 如 果 编 译 器 需要 创建 程序 员 所 设计 的 控制 流 逻 辑 ， 这 一 们 前 面 的 ifEE 配 ,第 一 个 
点 是 很 重要 的 。 口 论 生 有 else 和 它 匹 配 


5.3.2 语法 分 析 器 生成 器 YACC 


语法 分 析 器 是 从 源 程序 中 创建 语法 分 析 树 的 函数 ， 它 的 生成 过 程 已 经 被 所 有 的 UNIX 系 统 中 
都 有 的 YACC 命 令 规范 化 了 。YACC 的 输入 是 一 个 CFG， 并 且 该 CFG 的 具体 表示 方法 和 这 里 所 用 
到 的 只 在 具体 细节 上 有 所 不 同 。 每 个 产生 式 都 和 一 个 动作 相关 联 ， 而 这 个 动作 是 一 个 C 代 码 的 片 
段 。 当 语法 分 析 树 的 一 个 节点 (和 它 的 子 节点 ) 被 创建 时 ， 它 们 相应 产生 式 所 对 应 的 这 段 C 代 码 
就 被 执行 。 一 般 情况 下 ， 动 作 是 用 来 构造 这 个 节点 的 代码 ， 尽 管 在 一 些 YACC 应 用 中 语法 分 析 树 
实际 上 并 没有 真正 的 被 构造 出 来 ， 这 时 该 动作 就 做 一 些 别 的 事情 ， 比 如 生成 一 段 目标 代码 。 


例 5.21 图 5-11 中 是 一 个 YACC 中 的 CFG 的 例子 。 这 个 文法 
和 图 5-2 中 的 是 一 样 的 。 这 里 省 略 了 动作 部 分 ， 展 现 出 来 的 仅 
仅 是 它们 的 (需要 的 ) 花 括号 和 它们 在 YACC 输 入 中 的 位 置 。 

注意 下 面 是 YACC 文 法 和 我 们 的 文法 表示 法 的 一 些 对 应 

关系 : 

“冒号 被 用 来 作为 产生 式 的 符号 ， 我 们 的 是 一 。 

* 所 有 具有 给 定 头 的 产生 式 都 被 编 为 一 组 ， 并 且 它 们 的 体 
互相 之 间 用 竖 线 分 隔 开 来 。 我 们 也 使 用 这 种 表示 法 ， 但 
不 是 必须 的 。 

* 给 定 头 所 对 应 的 体 的 列表 用 一 个 分 号 结束 。 我 们 没有 使 ”图 5-11 一 个 YACC 中 的 文法 的 例子 











196| 











198| 





Download at http://www.pin5i.com/ 


134 种 5 条 





用 这 样 的 结束 符号 。 

“终结 符 都 用 单 引号 引起 来 。 很 多 字符 可 以 出 现在 一 对 单 引号 中 。 虽 然 我 们 没有 展现 出 来 ; 
YACC 人 允许 它 的 用 户 自己 定义 终结 符号 。 在 源 程序 中 出 现 的 这 些 终结 符号 能 被 词法 分 析 器 
检测 和 分 离 出 来 ; 并 且 通 过 它 的 返回 值 传递 给 语法 分 析 器 。 

“没有 被 引起 来 的 字母 和 数字 组 成 的 串 是 变 元 名 。 我 们 已 经 通过 这 个 方法 来 赋予 上 面 两 种 变 
元 更 加 有 意义 的 名 字 一 一 Exp 和 Id 一 一 虽然 也 能 用 E 和 1! 来 表示 。 o 


5.3.3 标记 语言 


下 面 我 们 将 会 考虑 一 系列 的 “语言 ， 它 们 被 称 为 标记 语言 。 这 些 语言 中 的 “ 串 ” 是 使 用 了 
一 些 该 语言 中 的 标记 ( 称 为 标记 符 ) 的 文档 。 标 记 符 告诉 我 们 一 些 该 文档 中 不 同 串 的 语义 。 

读者 可 能 最 熟悉 的 标记 语言 是 HTML。 这 个 语言 有 两 个 主要 的 功能 ， 在 文档 之 间 建 立 链接 
并 描述 一 个 文档 的 格式 “样子 ")。 这 里 只 给 出 一 个 关于 HTML 结 构 的 简单 看 法 ， 但 是 下 面 的 例 
子 能 够 展示 它 的 结构 ， 也 能 够 用 于 展示 一 个 CFG 是 怎样 描述 合法 的 HTML 文 档 的 ， 还 能 够 用 于 
展示 CFG 是 怎样 在 文档 的 处 理 过 程 〈 即 文档 在 显示 器 或 打印 机 上 的 显示 ) 中 起 到 引导 作用 的 。 


例 5.22 图 5-12a 展 示 了 一 段 文字 ， 它 包括 了 一 个 项 目 列表 ， 图 5-126 展 示 了 它 在 HTML 中 的 
表达 式 。 注 意 ,从 图 5-12b 可 以 看 出 HTML 是 由 普通 的 文 
本 摊 杂 着 一 些 标记 符 组 成 的 。 对 某 个 串 x 的 标记 符 匹 配 





The things I hate: 









1. Moldy bread. 
是 采用 <x> 和 </x> 的 形式 完成 的 8 。 例 如 ， 互 相 匹配 的 “| 2. People who drive too slow in the fast lane, 
a) 显示 的 文本 


标记 符 <EM> 和 </EM> 用 来 表示 它们 之 间 的 文本 是 需要 
强调 表示 的 ， 也 就 是 要 把 它们 改 为 斜体 字 或 者 其 他 合适 
的 字体 。<oL> 和 </0L> 这 对 互相 匹配 的 标记 符 是 用 来 
表示 一 个 有 序列 表 的 ， 也 就 是 说 一 些 项 的 列举 。 

另外 还 有 两 个 不 匹配 标记 符 的 例子 ，<P> 和 <LI>， 
它们 分 别 表示 段落 和 列表 项 。HTML 克 许 〈 事 实 上 鼓励 ) 
这 些 标记 符 也 用 </P> 和 </LI> 匹 配 起 来 (分 别 通 过 在 ESI? HTML 文 档 及 其 显示 版 本 
段落 和 列表 项 的 结尾 处 使 用 它们 )， 但 是 这 种 匹配 不 是 必须 的 。 因 此 这 里 就 不 匹配 这 些 标记 符 了 ， 
这 样 的 话 下 边 将 要 考虑 的 HTML 文 法 就 会 更 复杂 一 些 o 


<P>The things I <EM>hate</EM>: 
<OL> 

<LI>Moldy bread. 

<LI>People who drive too slow 
in the fast lane. 
</0L> 

b) HTML 源 代码 








有 许多 类 的 串 和 HTML 文 档 相 关 。 这 里 不 把 它们 全 都 列 出 来 了 ， 而 是 仅仅 给 出 对 理解 例 5.22 
中 的 文本 有 关键 作用 的 一 些 ， 并 且 对 于 其 中 的 每 一 类 都 给 出 了 一 个 具有 描述 性 的 名 字 的 变 元 。 
1.Text (XÆ) 是 任何 有 字面 意义 的 字符 串 ， 也 就 是 说 ， 它 里 面 没有 标记 符 。 一 个 ex 元 素 
的 例子 是 图 5-12a 中 的 “Moldy bread.” 
2. Char (字符 ) 是 任何 只 包含 单个 的 、 在 HTML 文 本 中 合法 字符 的 捉 。 注 意 ， 空 格 也 算 作 
字符 。 
3.Doc (文档 ) 代表 文档 ， 它 是 “元 素 ” 的 序列 ， 下 面 会 给 出 Element 的 定义 ， 并 且 这 个 定 


售 ” 有 时 标记 符 <i> 的 引入 不 仅仅 有 名 字 : 的 信息 ， 还 会 有 更 多 其 他 的 信息 。 然 而 ， 在 这 些 例 子 中 不 考 江 这 种 情况 。 
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义 和 Doc 的 定义 是 互 递归 的 : 

4. Element (元 素 ) 或 者 是 一 个 Tett 串 ， 或 者 是 一 对 互相 匹配 的 标记 符 以 及 它们 中 间 的 文档 ， 

或 者 是 一 个 不 匹配 的 标记 符 后 面 跟着 一 个 文档 。 

5. Listltem (列表 项 ) 是 标记 符 <LI> 后 面 跟着 一 个 文档 ， 并 且 该 文档 是 一 个 列表 项 。 

6. List (列表 ) 是 包含 零 个 或 多 个 列表 项 的 序列 。 

图 5-13 是 一 个 CFG， 它 描述 了 我 们 所 介绍 的 HTML 语 言 中 的 各 种 结构 。 在 第 (D) 行 中 它 说 明 
了 一 个 字符 可 以 是 “a” 或 “A”， 或 者 很 多 其 他 
可 能 的 HTML 字 符 集中 的 字符 。 第 (2) 行 中 它 用 两 | 工 Char 
个 产生 式 说 明 Texr 可 以 是 空 刘 或 者 任何 由 合法 字 | 2 Test + ©| Char Text 
符 后 面 眼 着 一 些 文本 构成 的 串 。 换 名 话说，Texr | 3 poe e| Element Doe 
就 是 零 个 或 多 个 字符 。 注 意 ， 虽 然 “<” 和 “>” 





一 al41… 


4. Element + Tezt| 


可 以 分 别 用 序列 slt; 和 sgt; 来 表示 ， 但 它们 并 <EM> Doc </EM> | 

n 5 en P> Di 

不 是 合法 字符 。 因 此 ， 绝 对 不 可 能 取 一 个 标记 符 5 ie 
到 Text 中 。 


第 (3) 行 是 说 一 个 文档 是 包含 零 个 或 多 个 “元 5. Listltem 一 <LI> Doc 
素 ” 的 序列 。 接 着 从 第 (4) 行 知道 一 个 元 素 或 者 | 6. List — e| ListItem List 








是 文本 ， 或 者 是 强调 的 文档 ， 或 者 是 段落 初始 符 
号 后 面 跟着 一 个 文档 ， 或 者 是 一 个 列表 。 另 外 对 图 $13 ;HTML 文法 的 一 部 分 

于 HTML 中 其 他 的 标记 符 也 有 相应 的 不 同 的 Element 的 产生 式 。 接 着 ， 第 (5) 行 说 一 个 列表 项 是 
由 标记 符 <LI> 和 它 后 面 跟着 的 任何 文档 组 成 的 。 第 (6) 行 说 明 一 个 列表 是 零 个 或 多 个 列表 项 的 
序列 。 

HTML 的 有 些 方面 的 说 明 并 不 需要 上 下 文 无 关 文 法 的 能 力 ， 在 这 些 方面 用 正则 表达 式 就 足 
够 了 。 例 如 ， 图 5-13 的 第 (1) 行 和 第 (2) 行 可 以 用 正则 表达 式 (a + A + 小 来 表示 和 7ext 表 示 的 同样 
的 语言 。 然 而 ，HTML 的 有 些 方面 确实 需要 CFG 的 能 力 。 例 如 ， 每 一 对 包含 开始 和 结束 符号 的 
标记 符 对 (比如 <EM> 和 </EM>) 就 像 括号 匹配 一 样 ， 已 知 其 为 非 正则 的 。 





5.3.4 XML 和 文档 类 型 定义 


能 用 文法 来 描述 HTML 不 算 什么 ， 事 实 上 所 有 的 编程 语言 都 可 以 用 它们 自己 的 CFG 来 描述 ， 
因此 如 果 不 能 这 样 描述 HTML 反 倒 令 人 惊讶 了 。 然 而 ， 当 考虑 另外 一 类 重要 的 标记 语言 XML 时 ， 
我 们 将 会 发 现在 使 用 这 个 语言 的 过 程 中 ，CFG 扮 演 着 至 关 重要 的 角色 。 

XML 的 目的 不 是 描述 文档 的 格式 一 那 是 HTML 的 工作 ， 而 是 试 着 描述 文本 的 “语义 ”"。 例 
如 ， 像 “12 Maple St” 这 样 的 文本 看 上 去 像 一 个 地 址 ， 但 是 它 是 吗 ? 在 XML 中 ， 代 表 一 个 地 址 
的 短语 往往 用 标记 符 围 起 来 ， 例 如 : 

<ADDR> 12 Maple St.</ADDR> 

然而 ， 对 于 <ADDR> 是 否 意味 着 一 幢 建 筑 的 地 址 这 件 事情 并 不 是 很 清楚 。 例 如 ， 如 果 这 个 文 
档 是 关于 内 存 分 配 的 ， 那 么 标记 符 <ADDR> 可 能 会 表示 一 个 内 存 地 址 。 为 了 把 这 些 不 同类 型 的 标 
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记 符 区 别 开 来 ， 人 们 希望 开发 一 个 标准 ， 该 标准 采用 DTD 的 形式 。 

一 个 DTD 本 质 上 就 是 一 个 上 下 文 无 关 文法 ， 不 过 它 有 着 自己 的 用 来 描述 变 元 和 产生 式 的 记 
号 。 下 面 的 例子 将 会 展示 一 个 简单 的 DTD， 并 且 会 介绍 用 来 描述 DTD 的 语言 的 一 部 分 。DTD 语 
言 本 身 有 一 个 上 下 文 无 关 的 文法 ， 但 它 并 不 是 我 们 有 兴趣 要 描述 的 。 然 而 ， 用 来 描述 DTD 的 语 
言 本 质 上 是 用 一 种 CFG 记 号 ， 我 们 想 知道 在 这 个 语言 中 CFG 是 怎样 被 表达 出 来 的 。 

一 个 DTD 的 形式 如 下 : 


<IDOCTYPE DTD 的 名 字 [ 
元 素 定义 的 列表 





200 ]> 
接 下 来 ， 元 素 定义 的 形式 如 下 : 
<1ELEMENT 元 素 的 名 字 (元 素 的 描述 ) > 
元 素 的 描述 实质 上 是 正则 表达 式 。 这 些 正则 表达 式 的 基础 是 : 
1. 其 他 元 素 的 名 字 ， 表 示 一 个 类 型 的 元 素 可 以 出 现在 另 一 个 类 型 的 元 素 里 面 ， 就 像 在 
HTML 中 一 个 文本 列表 里 可 以 有 强调 的 文本 一 样 。 
2. 特殊 的 术语 #PCDATA， 代 表 任 何不 包含 XML 标 记 符 的 文本 。 这 个 术语 和 例 5.22 中 的 变 元 
Text 的 角色 相同 。 
允许 的 运算 符 有 : 
1.1 代 表 并 ， 就 像 3.3.1 节 中 讨论 的 UNIX 的 正则 表达 式 记 号 中 那样 。 
2. 去 号 代表 连接 。 
3: 闭 包 运算 符 有 三 种 ， 正 如 3.3.1 节 中 所 介绍 的 。 它 们 是 :*， 最 常用 的 运算 符 ， 表 示 “:…… 
的 零 次 或 多 次 出 现 ”，+， 表 示 “…… 的 一 次 或 多 次 出 现 ”，?， 表 示 “的 零 次 或 一 
次 出 现 ”。 
可 以 用 括号 把 运算 符 和 它们 的 参数 括 起 来 ， 否 则 就 采用 通常 的 正则 表达 式 的 优先 级 。 


例 5.23 ”考虑 下 面 的 情况 : 假设 计算 机 销售 商 们 次 到 一 起 想 要 建立 一 套 DTD 的 标准 ， 这 套 
标准 是 用 来 在 Web 上 发 布 他 们 正在 销售 的 各 种 PC 的 介绍 。 每 种 PC 的 介绍 将 会 给 出 一 个 型 号 ， 以 
及 这 个 型 号 的 特性 的 细节 描述 。 例 如 ，RAM 的 大 小 ， 磁 盘 的 数目 和 大 小 等 等 。 图 5-14 展 示 了 一 
个 假想 的 、 非 常 简单 的 刻画 个 人 计算 机 的 DTD。 

这 个 DTD 的 名 字 是 PcSpecs。 第 一 个 元 素 (就 像 CFG 的 初始 符号 ) 是 Pcs (关于 PC 规格 的 
列表 )。 它 的 定义 部 分 PC* 说 明 一 个 PCS 包 含 零 个 或 多 个 条 目 ， 每 个 条 目 都 是 PC。 

接 下 来 看 到 的 是 元 素 PC 的 定义 ， 它 由 五 部 分 连接 而 成 ， 其 中 前 四 部 分 是 其 他 的 元 素 ， 分 别 
对 应 着 PC 的 型 号 、 价 格 、 处 理 器 类 型 和 RAM。 由 于 去 号 表示 连接 ， 因 此 这 妃 部 分 必须 刚好 出 现 
一 次 ， 并 且 是 按照 顺序 出 现 。 最 后 一 个 组 成 部 分 是 DISK+， 表 示 一 个 PC 中 可 以 有 一 个 或 多 个 磁 
AA. 

很 多 组 成 部 分 都 是 简单 的 文本 ，MODEL、PRICE 和 RAM 都 是 这 种 类 型 。 但 是 PROCESSOR 是 
有 结构 的 ， 从 它 的 定义 可 以 看 出 来 它 由 生产 厂家 、 型 号 和 速度 这 三 部 分 按 其 序 构成 ， 这 三 部 分 

Bor] 都 是 简单 的 文本 。 
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<!DOCTYPE PcSpecs [ 
<!ELEMENT PCS (PC*)> 
<!ELEMENT. PC (MODEL, PRICE, PROCESSOR, RAM, DISK+)> 
<!ELEMENT MODEL (#PCDATA)> 
<!ELEMENT PRICE (#PCDATA)> 
<!ELEMENT PROCESSOR (MANF, MODEL, SPEED)> 
<!ELEMENT MANF (#PCDATA)> 
<!ELEMENT MODEL (#PCDATA)> 
<!ELEMENT SPEED (#PCDATA)> 
\ <!ELEMENT RAM (#PCDATA)> 
<!ELEMENT DISK (HARDDISK | CD | DVD)> 
<!ELEMENT HARDDISK (MANF, MODEL, SIZE)> 
<!ELEMENT SIZE (#PCDATA)> 
<!ELEMENT CD (SPEED)> 
<!ELEMENT DVD (SPEED)> 











图 5-14 一 个 刻画 个 人 计算 机 的 DTD 

DISK 条 目的 结构 最 为 复杂 。 首 先 ， 一 个 磁盘 可 以 是 硬盘 、CD 或 者 DVD， 这 从 元 素 DISK 的 
规则 可 以 看 出 ，DISK 定 义 为 这 三 者 的 “或 "。 接 下 来 ， 硬 盘 也 由 三 个 部 分 按 顺 序 构成 ， 它 们 分 
别 是 生产 厂家 、 型 号 和 大 小 ， 而 CD 和 DVD 仅仅 由 它们 的 速度 来 代表 。 

图 5-15 是 一 个 使 用 图 5-14 中 的 DTD 的 XML 文档 的 例子 。 注 意 到 在 这 个 文档 中 ， 每 个 元 素 都 
用 两 个 标记 符 来 表示 ， 其 中 一 个 是 带 有 该 元 素 名 字 的 标记 符 ， 另 一 个 在 结束 处 和 它 对 应 。 其 中 
表示 结束 的 标记 符 不 过 是 在 该 元 素 的 名 字 前 面 加 了 一 个 斜 杠 而 已 ， 这 和 HTML 中 是 一 样 的 。 因 
而 ， 在 图 5-15 中 可 以 看 到 最 外 层 的 标记 符 是 <PCS>' "</PCS>。 这 个 标记 符 里 面 是 一 系列 的 条 





<PC> 
<MODEL>4560</MODEL> 
<PRICE>$2295</PRICE> 
<PROCESSOR> 
<MANF>Intel</MANF> 
<MODEL>Pent ium</MODEL> 
<SPEED>800MHz</SPEED> 
</PROCESSOR> 
<RAM>256</RAM> 
<DISK><HARDDISK> 
<MANF>Maxtor</MANF> 
<MODEL>Diamond</MODEL> 
<SIZE>30. 5Gb</SIZE> 
</HARDDISK></DISK> 
<DISK><CD> 
<SPEED>32x</SPEED> 
</CD></DISK> 
</PC> 
<PC> 


ro 
</PCS> 











图 5-15 一 个 遵照 图 5-14 中 DTD 结 构 的 文档 的 一 部 分 
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目 ， 每 一 个 代表 该 生产 商 所 销售 的 一 种 PC， 这 里 仅 展示 出 来 其 中 的 一 个 条 目 。 

通过 例 中 的 条 目 <PC> ， 我 们 可 以 很 容易 地 看 到 机 器 的 型 号 是 4560， 价 格 是 $2295， 处 理 器 
是 800MHz Intel Pentium 处 理 器 。 它 有 256Mb 的 RAM， 一 个 30.5Gb 的 Maxtor Diamond 硬 盘 和 一 个 
32x CD-ROM 驱 动 器 。 其 实 最 重要 的 并 不 是 我 们 能 看 到 这 些 东 西 ， 而 是 程序 能 够 读 取 这 个 文档 ， 
并 且 能 够 根据 图 5-14 中 的 DTD 的 文法 来 正确 的 解释 图 5-15 中 所 有 的 数字 和 名 字 。 口 


读者 可 能 已 经 注意 到 了 ， 图 5-14 中 这 样 的 DTD 中 元 素 的 规则 看 上 去 和 上 下 文 无 关 文法 的 产 
生 式 并 不 是 很 像 。 这 些 规则 中 的 大 部 分 已 经 是 正确 的 形式 了 。 例 如 ， 
<!ELEMENT PROCESSOR (MANF, MODEL, SPEED)> 


和 下 面 这 个 产生 式 很 类 似 
Processor—Manf Model Speed 


然而 ， 规 则 
<!ELEMENT DISK (HARDDISK | CD | DVD)> 
有 并 不 像 一 个 产生 式 体 的 DISK 的 定义 。 在 这 种 情况 下 ， 推 广 的 方法 很 简单 : FEHR Se ALI 
释 成 为 三 个 产生 式 ， 它 们 的 体 用 竖 杠 连接 起 来 ， 这 里 竖 杠 的 作用 与 拥有 同样 的 头 的 产生 式 中 的 
相同 。 因 此 ， 这 条 规则 和 下 面 的 三 个 产生 式 等 价 : 
Disk—HardDisk | Cd | Dvd 
最 难 转换 的 一 种 情况 是 
<!ELEMENT PC (MODEL, PRICE, PROCESSOR, RAM, DISK+)> 
其 中 “ 体 ” 里 有 一 个 闵 包 运算 符 。 解 决 的 方法 是 把 DISK+ 用 一 个 新 的 变 元 Disks 来 代替 ， 它 通过 
一 对 产生 式 来 产生 变 元 Disk 的 一 个 或 多 个 实例 。 因 此 ， 等 价 的 产生 式 是 
Pc— Model Price Processor Ram Disks 
Disks— Disk | Disk Disks 
有 一 个 通用 的 方法 能 够 把 产生 式 体 中 包含 正则 表达 式 的 CFG 转 换 成 普通 的 CFG。 这 里 先 非 
形式 化 的 给 出 基本 思想 ， 读者 也 许 希望 不 仅仅 把 产生 式 体 中 包含 正则 表达 式 的 CFG 变 成 正规 的 
CFG, 并 且 和 希望 能 够 形式 化 证 明 经 过 这 样 的 扩展 变换 之 后 并 没有 产生 超出 这 个 CFL 之 外 的 新 的 
语言 。 下 面 将 会 归纳 地 给 出 把 体 中 包含 正则 表达 式 的 产生 式 变 成 一 系列 和 它 等 价 的 普通 的 产生 
式 的 方法 。 这 个 归纳 是 对 产生 式 体 中 的 正则 表达 式 的 大 小 来 进行 的 。 
基础 ， 如果 产 生 式 的 体 是 几 个 元 素 的 连接 ， 那 么 这 个 产生 式 已 经 是 合法 的 CFG 的 产生 式 形 
式 了 ， 因 此 什么 都 不 用 做 。 

归纳 : 否则 ， 将 根据 最 后 使 用 的 运算 符 来 采取 下 面 五 种 情况 下 的 方案 之 一 。 

1 该 产生 式 是 4 一 已, E: 的 形式 ， 其 中 EI 和 EE; 都 是 DTD 语 言 中 允许 的 表达 式 ， 这 是 一 个 连接 
的 情况 。 引 进 两 个 新 的 变 元 B 和 C， 并 且 它 们 不 能 在 该 文法 的 其 他 地 方 出 现 。 把 A 一, Ey 
替换 为 下 面 的 一 组 产生 式 ， 

4 一 BC 
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BoE, 
C3E 
其 中 第 一 个 产生 式 4 一 BC 是 合法 的 CFG 的 产生 式 ， 后 面 两 个 有 可 能 并 不 是 合法 的 (当然 
也 可 能 是 合法 的 ) 。 然 而 它们 的 体 要 短 于 原来 的 产生 式 的 体 ， 因 此 只 要 继续 应 用 归纳 的 过 
程 来 把 它们 转换 为 CFG 的 形式 就 行 了 。 
2. 该 产生 式 是 4 一 Ei | Es 的 形式 。 对 于 这 个 并 运算 符 ， 把 这 个 产生 式 用 下 面 的 一 对 产生 式 来 
REF: 
4 一 已 
A-E, 
同样 ， 这 些 产生 式 也 可 能 是 或 者 不 是 合法 的 CFG 产 生 式 ， 但 是 它们 的 体 一 定 比 原来 的 产 
生 式 的 体 要 短 。 因 此 可 以 递归 地 应 用 转换 规则 并 最 终 把 这 些 新 的 产生 式 转换 为 符合 CFG 
形式 的 新 的 产生 式 。 
3. 该 产生 式 是 4 一 (E1) 的 形式 。 这 时 要 引入 一 个 新 的 变 元 B (8 不 能 在 别处 出 现 )， 然 后 把 这 
个 产生 式 替换 为 : 
ABA 
A~e 
BE, 
4. 该 产生 式 是 A 一 (Ei)* 的 形式 。 这 时 要 引入 一 个 新 的 变 元 B (8B 不 能 在 别处 出 现 ), 然后 把 这 
AFERRA: 
4 一 B4 
A=B 
BoE, 
5. 该 产生 式 是 4 一 (E)? 的 形式 。 把 这 个 产生 式 赫 换 为 : 
Ave 
A>E 


例 5.24 下 面 来 考虑 怎样 把 DTD 规 则 
<!ELEMENT PC (MODEL, PRICE, PROCESSOR, RAM, DISK+)> 
转换 为 合法 的 CFG 产 生 式 。 首 先 ， 这 条 规则 的 体 可 以 看 作 两 个 表达 式 的 连接 ， 第 一 个 是 MODEL， 
PRICE，PROCESSOR，RRAM， 第 二 个 是 DISK+。 如 果 创 建 两 个 变 元 4 和 B 来 分 别 代表 这 两 个 子 表 
达 式 ， 就 可 以 使 用 下 面 的 产生 式 : 
Pc 一 4B 
A 一 Model Price Processor Ram 
B—Disk + 
其 中 仅 有 最 后 一 个 产生 式 不 是 合法 的 形式 。 这 时 再 引入 另 一 个 新 的 变 元 C 和 两 个 新 的 产生 式 来 代 























206| 
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Pe: 
B—=CBIC 
C—Disk 
在 这 个 特例 下 ， 由 于 A 推导 的 表达 式 仅仅 是 几 个 变 元 的 连接 ， 而 Disk 仅 私 是 一 个 单个 的 变 元 ， 
因此 实际 上 没 必要 有 A 和 C 这 两 个 变 元 ， 可 以 用 下 面 的 产生 式 来 代 圭 它们 ; 
Pce—Model Price Processor Ram B 
B—Disk B | Disk o 


5.3.5 习题 


习题 5.3.1 WE: 如 果 一 个 串 是 括号 匹配 的 ， 就 像 例 5.19 中 所 说 的 那样 ， 那 么 它 一 定 能 用 
文法 8 一 BB1(B) | e 来 生成 。 提 示 : 对 串 的 长 度 进行 归纳 。 

* 习题 5.3.2 ”考虑 同时 包含 圆 括号 和 方 括号 且 这 两 种 括号 都 匹配 的 所 有 串 的 集合 。 这 种 串 来 
自 下 面 一 个 例子 。 考 虑 C 语 言 中 的 表达 式 ， 加 括号 表示 分 组 和 函数 调用 的 参数 方 括号 表示 数组 
的 下 标 。 如 果 把 C 语 言 中 的 表达 式 里 除了 括号 以 外 的 字符 都 去 掉 ， 那么 就 得 到 这 两 种 类 型 的 括号 
匹配 的 串 了 。 例 如 ， 

£ (afile(blilli}, clg(x)]), dli]) 
就 变 成 了 一 个 括号 匹配 的 串 ([KDUD[ODD)。 试 着 设计 一 个 文法 来 恰好 定义 所 有 的 圆 括号 和 方 
括号 都 匹配 的 串 。 

! 习题 5.3.3 在 5.3.1 节 中 ， 考 虑 了 下 面 的 文法 ， 

S 一 上 188S1i31iSeS 

并 且 当时 说 过 可 以 通过 重复 使 用 下 面 的 方法 来 测试 它 的 语言 的 成 员 性 ， 这 个 测试 过 程 从 w 开 始 ， 
并 且 在 这 个 重复 的 过 程 中 串 w 会 发 生变 化 。 

1. 如 果 这 个 串 是 从 e 开 始 的 ， 那 么 测试 失败 ，w 不 在 中。 

2. 如 果 串 里 没有 e 了 (还 可 以 有 i) ， 那 么 测试 通过 ，w 在 L 中 。 

3. 否则 ， 删 掉 第 一 个 c 和 它 左边 的 ;， 然 后 继续 对 剩 下 的 串 进 行 这 三 个 步骤 的 测试 。 

证 明 : 这 个 测试 过 程 能 够 正确 地 识别 出 上 中 的 串 。 

习题 5.3.4 把 下 面 的 格式 加 入 到 图 5-13 中 的 HTML 的 文法 中 去 ， 

* a) 列表 项 必须 用 标记 符 </LI> 来 结束 。 

b) 元 素 可 以 是 无 序列 表 ， 就 像 有 序列 表 一 样 。 无 序列 表 是 用 标记 符 <UL> 和 </UL> 括 住 来 表 
示 的 。 

1!9) 元 素 可 以 是 一 个 表格 。 表 格 是 用 <TABLE> 和 </TABLE> 括 起 来 表示 的 。 在 这 两 个 标记 符 
里 面 可 以 有 一 行 或 多 行 ， 每 一 行 都 用 <TR> 和 </TR> 括 起 来 表示 。 第 一 行 是 标题 ， 包 含 一 
个 或 多 个 域 ， 分 别 用 标记 符 <TH> 来 引入 (假设 它们 不 是 闭 的 ， 虽 然 它们 应 该 是 )。 接 下 
来 的 行 用 标记 符 <TD> 来 引入 它们 的 域 。 

习题 5.3.5 把 图 5-16 中 的 DTD 转 换 为 上 下 文 无 关 文 法 。 
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<!DOCTYPE CourseSpecs [ 
<!ELEMENT COURSES (COURSE+)> 
<!ELEMENT COURSE (CNAME, PROF, STUDENT*, TA?)> 
<!ELEMENT CNAME (#PCDATA)> 
<!ELEMENT PROF  (#PCDATA)> 
<!ELEMENT STUDENT (#PCDATA)> 
<!ELEMENT TA (#PCDATA)> 
]> 








图 5-16 课程 的 DTD 


5.4 文法 和 语言 的 歧义 性 


前 面 已 经 看 到 ，CFG 的 应 用 往往 立足 于 使 用 文法 来 提供 文件 的 结构 。 例 如 ， 在 5.3 节 中 使 用 
文法 来 定义 程序 和 文档 的 结构 。 其 中 不 言 而 喻 的 假定 是 文法 能 惟一 地 决定 它 的 语言 里 每 个 串 的 
结构 。 然 而 ， 下 面 将 会 看 到 并 不 是 每 一 个 文法 都 能 提供 这 种 惟一 的 结构 。 

如 果 一 个 文法 不 能 提供 惟一 的 结构 ， 那 么 有 时 可 以 通过 重新 设计 这 个 文法 ， 使 结构 对 于 其 
语言 中 的 每 一 个 串 是 惟一 的 。 但 不 幸 的 是 ， 有 时 却 无 法 达到 这 个 目的 。 也 就 是 说 ， 的 确 存在 这 
样 的 一 类 CFL， 它 们 具有 “固有 的 歧义 性 ”, 这 类 语言 的 每 一 个 文法 都 对 该 语言 中 的 某 些 审 提供 
多 于 一 个 的 结构 。 


5.4.1 歧义 文法 


下 面 回 到 一 直 使 用 的 例子 上 来 。 图 5-2 中 的 表达 式 文法 。 使 用 这 个 文法 能 够 生成 任何 包含 * 
和 + 运算 符 的 序列 ， 而 且 产 生 式 EE+E1E* EE 允许 按 照 任何 选 定 的 顺序 来 生成 这 些 表达 式 。 


例 5.25 例如 ， 考 虑 句 型 E+ E*E， 从 E 到 它 有 两 种 推导 : 

1. E=>E+E=E+E*E 

2. E>E*E=>E+E*E 

注意 ， 在 推导 (1) 中 ,第 二 个 E 是 用 E * E 来 震 换 的 ， 而 在 推导 (2) 中 第 一 个 E 是 用 E + BCR 
图 5-17 给 出 了 这 两 棵 语法 分 析 树 ， 需 要 注意 它们 是 不 同 的 语法 分 析 树 。 


bp ve 
aes PN! 


a) b) 
图 5-17 具有 同样 产物 的 两 棵 语法 分 析 树 


这 两 个 推导 的 不 同 之 处 是 有 意义 的 。 如 果 考 虑 表达 式 的 结构 ， 推 导 (1) 说 第 二 个 和 第 三 个 表达 
式 先 相 乘 ， 结 果 再 和 第 一 个 表达 式 相 加 ; 而 推导 (2) 则 表示 先 把 前 两 个 表达 式 相 加 ， 再 把 它们 的 和 
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跟 第 三 个 表达 式 相 乘 。 举 一 个 更 具体 的 例子 ， 第 一 个 推导 认为 1 + 2 * 3 应 该 结合 成 1 + (2* 3) = 7， 








而 第 二 个 推导 则 认为 它 应 该 结合 成 (1 + 2) * 3 = 9。 很 明显 ， 是 第 一 个 而 不 是 第 二 个 推导 与 在 数学 
中 对 表达 式 正确 结合 的 概念 相 一 致 。 

由 于 图 5-2 中 的 文法 对 通过 在 推导 过 程 中 用 一 个 标识 符 来 替换 E + E * E 所 推 得 的 任何 终结 符 
串 都 给 出 两 种 不 同 的 结构 ， 所 以 该 文法 对 于 提供 表达 式 的 惟一 结构 来 说 不 是 最 好 的 选择 。 在 实 
际 应 用 中 ， 尽 管 它 可 以 给 出 像 算 术 表达 式 那样 的 正确 结合 ， 但 它 也 可 能 给 出 错误 的 表达 式 中 的 
结合 方式 。 为 了 在 编译 器 中 使 用 这 个 表达 式 文法 ， 需 要 对 它 进行 一 些 修改 ， 使 它 能 够 提供 惟一 
正确 的 表达 式 中 的 结合 方式 。 口 


另 一 方面 ， 如 果 一 个 文法 仅仅 是 对 于 一 个 串 存在 不 同 的 推导 (而 不 是 不 同 的 语法 分 析 树 ) 
并 不 意味 这 个 文法 中 存在 缺陷 。 下 面 就 是 一 个 例子 。 


例 5.26 ”使 用 同样 的 表达 式 文法 ， 可 以 发 现 对 串 a + 5 有 许多 不 同 的 推导 ， 其 中 的 两 个 例子 
是 : 

1. E> E+ E>1+E=>a+E=>at+Il=atb 

2. E> E+E E+ = 1+] 1+b>a+b 
然而 ， 这 些 推导 所 提供 的 结构 并 没有 本 质 的 区 别 ， 它 们 都 是 说 a 和 b 是 标识 符 ， 而 且 都 要 把 它们 
的 值 相 加 。 事 实 上 ， 如 果 使 用 定理 5.18 和 定理 5.12 中 的 构造 过 程 ， 这 两 个 推导 产生 一 样 的 语法 分 
析 树 。 口 


上 面 的 两 个 例子 告诉 我 们 并 不 是 多 种 推导 导致 了 歧义 性 ， 而 是 存在 多 棵 不 同 的 语法 分 析 树 
所 导致 的 。 因 此 ， 我 们 说 一 个 CFG G = (V, T, P, 5) 是 歧义 的 ， 如 果 厂 中 至 少 存在 一 个 申 w， 对 于 
这 个 串 可 以 找到 两 棵 不 同 的 语法 分 析 树 满足 如 下 条 件 ， 它 们 的 根 都 是 9， 产物 都 是 w。 如 果 一 个 
文法 使 得 任意 的 串 都 最 多 只 对 应 一 棵 语法 分 析 树 ， 那 么 该 文法 就 是 无 歧义 的 。 

例如 ， 例 5.25 几 乎 就 已 经 给 出 了 一 个 图 5-2 中 文法 歧义 性 的 证 明 。 我 们 只 需要 证 明 图 5-17 中 


[208] 的 语法 分 析 树 能 够 经 过 补充 后 产生 终结 符 串 的 产物 。 图 5-18 就 是 这 个 补充 过 程 的 一 个 例子 。 


he ripe 
| be Pa | 
| 


—_ 


a) b) 


图 5-18 产物 为 a + a* a 的 树 ， 证 实 了 表达 式 文法 的 歧义 性 
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5.4.2 去 除 文法 的 歧义 性 


在 理想 的 情况 下 ， 应 该 能 够 有 一 个 算法 能 够 从 CFG 中 去 除 歧义 性 ， 这 一 点 在 很 大 程度 上 就 
像 44 节 中 提供 的 那个 用 来 去 除 有 穷 自动 机 里 多 余 状 态 的 算法 。 然 而 ,， 令 人 惊讶 的 事实 是 ， 就 像 
将 要 在 9.5.2 节 中 证 明 的 那样 ， 实 际 上 即使 想 要 首先 判断 一 个 CFG 是 不 是 歧义 的 ， 也 不 存在 一 个 
算法 能 够 实现 。 而 且 ，5.4.4 节 中 将 会 展示 一 个 上 下 文 无 关 语 言 ， 对 它 而 言 只 存在 歧义 的 文法 ， 
根本 不 存在 无 歧义 文法 。 对 这 样 的 语言 来 说 ， 去 除 歧义 性 是 不 可 能 的 。 

幸运 的 是 ， 在 实际 应 用 中 这 种 情况 并 不 很 严重 。 对 于 一 般 的 编程 语言 中 出 现 的 结构 ， 可 用 
一 种 熟知 的 方法 来 消除 其 中 的 歧义 性 。 图 5-2 中 的 表达 式 文法 就 很 典型 ， 所 以 下 面 将 会 把 研究 如 
何 去 除 它 的 歧义 性 的 过 程 作为 一 个 重要 的 例子 。 

首先 ， 我 们 注意 到 有 两 个 导致 图 5-2 中 的 文法 的 歧义 性 的 原因 : 

1. 没 有 考虑 运算 符 的 优先 级 。 虽 然 图 5-17a 中 正确 地 结合 了 * ( 先 于 结合 +) ， 然 而 图 5-17b 也 

是 一 个 正确 的 语法 分 析 树 (结合 + 先 于 *)。 在 一 个 无 歧义 的 文法 中 将 只 允许 图 5-17a 中 的 
结构 。 

2. 一 系列 同样 的 运算 符 既 可 从 左 到 右 也 可 从 右 到 左 地 结合 。 例 如 ， 如 果 图 5-17 中 的 * 全 部 换 

成 +， 那 么 对 于 串 E + 已 + E 将 会 得 到 两 棵 不 同 的 语法 分 析 树 。 因 为 加 法 和 乘法 都 满足 结合 
律 ， 因 此 不 管 从 左 到 右 还 是 从 右 到 左 的 结合 都 无 所 谓 ， 但 是 为 了 去 除 歧义 性 ， 必 须 选择 
其 中 一 种 结合 方式 。 习 惯 的 做 法 是 坚持 从 左 到 右 的 结合 ， 所 以 只 有 图 5-17b 中 的 结构 是 两 
个 加 号 的 正确 结合 方式 。 





YACC 中 歧义 性 的 消除 


如 果 这 里 使 用 的 表达 式 文法 是 歧义 的 ， 那 么 我 们 可 能 会 疑虑 图 5-11 中 的 YACC 样 本 程序 
是 否 是 现实 的 。 没 错 ， 它 所 描述 的 文法 确实 是 歧义 的 ， 但 是 YACC 语 法 分 析 器 生成 器 的 强 
大 功能 中 的 一 部 分 正 是 来 源 于 为 用 户 提供 去 除 绝 大 部 分 导致 故 义 性 的 因素 的 机 制 。 对 于 表 
达 式 文法 ， 只 要 坚持 下 面 两 条 就 足以 去 除 歧义 性 了 : 

3)* 比 + 的 优先 级 高 ， 也 就 是 说 ，* 总 是 在 它 两 边 的 + 结合 之 前 结合 。 这 条 规则 告诉 我 们 

在 例 5.25 中 要 使 用 推导 (1 而 不 是 推导 (2)。 
b) * 和 + 都 是 左 结合 的 ， 也 就 是 说 ， 一 些 用 * 连 接 的 表达 式 总 是 被 从 堪 向 右 地 结合 起 来 ， 
对 用 + 结合 的 表达 式 也 同样 。 

YACC 人 允许 我 们 规定 运算 符 的 优先 级 ， 只 要 把 它们 按照 从 优先 级 最 低 到 最 高 的 顺序 排 
列 起 来 即 可 。 从 技术 上 说 ， 一 个 运算 符 的 优先 级 将 在 如 下 产生 式 中 应 用 : 这 个 产生 式 的 运 
算 符 是 产生 式 体 的 最 右 端的 终结 符号 。 我 们 也 可 以 用 关键 字 sleft 和 sright 声 明 运 算 符 
是 左 结合 的 还 是 右 结合 的 。 例 如 ， 为 了 声明 + 和 * 都 是 左 结合 的 ， 并 且 * 比 + 的 优先 级 高 ， 我 
们 只 需要 在 图 5-11 中 的 文法 的 开头 部 分 写 上 如 下 的 句子 : 

tleft ‘+’ 
sleft ‘* 
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结 强度 ”的 那些 表达 式 。 更 明确 的 说 就 是 : 

1. 因子 是 不 能 被 相 邻 的 运算 符 ( 包 括 * 和 +) 打 断 的 表达 式 ， 因 此 在 我 们 的 表达 式 文法 中 的 
因子 只 有 
(a) 标识 符 一 -不 可 能 通过 增加 运算 符 的 方法 来 把 一 个 标识 符 打 断 。 

(b) 任何 被 括号 括 起 来 的 表达 式 一 一 无 论 括号 里 面 括 的 是 什么 。 括 号 的 用 处 正 是 用 来 防止 
括号 里 面 的 内 容 成 为 括号 外 面 的 运算 符 的 操作 数 。 

2. 项 是 不 能 被 相 邻 的 + 打 断 的 表达 式 。 在 我 们 的 例子 中 ， 只 有 + 和 * 是 运算 符 ， 因 此 项 就 是 
一 个 和 几 个 因子 的 乘积 。 例 如 ， 项 a * 5 是 可 以 被 打 断 的 ， 只 要 采用 左 结合 的 规则 并 且 把 
al * 放 到 它 的 左边 ， 也 就 是 说 ，al * a * b 被 结合 为 (al * a) =b, Wija * b 被 打 断 了 。 然 
而 ， 仅 仅 在 它 的 左边 放置 一 个 加 号 项 (比如 el+) 或 在 它 的 右边 放置 tal 是 无 法 打 断 a * b 
的 ，al + a*b 的 正确 结合 是 al + (a + b)，a * b+al 的 正确 结合 是 (a * b) + al。 

3. 表达 式 是 指 任何 可 能 的 表达 式 ， 其 中 包括 可 以 被 相 邻 的 * 或 + 打 断 的 表达 式 。 因此， 我 们 
的 例子 中 的 表达 式 就 是 一 个 或 多 个 项 的 和 。 


例 5.27 ”图 5-19 展 示 了 一 个 无 歧义 的 表达 式 文法 ， 它 和 图 5-2 中 的 文法 产生 同样 的 语言 。 考 
虚 变 元 F，T 和 E， 它 们 的 语言 分 别 是 上 文中 定义 的 因子 、 
项 和 表达 式 。 例 如 ， 对 于 串 a + a * a， 该 文法 只 允许 有 一 
棵 语法 分 析 树 ， 如 图 5-20 所 示 。 

关于 这 个 文法 是 无 歧义 的 事实 还 不 很 明显 ， 下 面 是 一 
些 关键 的 事实 ， 它 们 能 够 解释 为 什么 这 个 语言 中 的 串 不 可 ”图 5-19 一 个 无 歧义 性 的 表达 式 文法 
能 拥有 两 棵 不 同 的 语法 分 析 树 。 

。， 从 7 推导 出 的 任何 串 (项 ) 一 定 是 一 个 或 多 个 用 * 和 连接 的 因子 。 我 们 定义 的 因子 ， 在 图 5-19 

中 就 是 F 的 产生 式 所 定义 的 ， 它 或 者 是 标识 符 或 者 是 一 E 

个 用 括号 括 起 来 的 表达 式 。 

。7 的 两 个 产生 式 的 形式 能 够 决定 一 序列 的 因子 的 语法 分 Ee | tome 

析 树 只 能 是 把 fi* fof (n > DITE AIA farfor fa A | 

因子 fo 的 树 。 原 因 是 从 F 无 法 推导 出 -1*f, 这 样 的 表达 T 








+ T 

N 

“OF 
| 


了 


式 ， 除 非 把 它们 用 括号 括 起 来 。 因 而 ， 当 使 用 产生 式 T 

一 T * F 时 ，F 除 了 最 后 一 个 因子 之 外 不 可 能 推导 出 别 的 

东西 。 也 就 是 说 ， 项 的 语法 分 析 树 只 能 像 图 5-21 中 的 那 

样 的 。 I 
“同样 的 ， 一 个 表达 式 就 是 用 + 连接 起 来 的 一 系列 的 项 。 当 | 
使 用 产生 式 E 一 E+7 来 推导 ++…+ 思 时 ,7T 只 能 推导 出 ， a 
体 中 的 E 只 能 推导 出 t+ +… + -1。 原 因 同样 是 : 如 果 不 图 5-20 a+a*a 的 惟一 
使 用 括号 的 话 ，7 不 可 能 推导 出 两 个 或 多 个 项 的 和 。 o 的 语法 分 析 树 
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F 
图 5-21 一 个 项 的 所 有 可 能 的 语法 分 析 树 的 形式 


5.4.3 最 左 推导 作为 表达 歧义 性 的 一 种 方式 


即使 文法 是 无 歧义 的 ， 推 导 也 有 可 能 不 惟一 。 但 下 面 的 结论 总 是 成 立 的 : 在 无 歧义 的 文法 
中 ， 最 左 推导 是 惟一 的 ， 最 右 推导 也 是 惟一 的 。 下 面 只 考虑 最 左 推导 ， 最 右 推导 只 给 出 结论 


例 5.28， 作 为 一 个 例子 ， 注 意图 5-18 中 的 两 棵 产物 为 BE + 已 * E 的 语法 分 析 树 。 如 果 从 它们 出 
发 构造 最 左 推导 ， 将 会 分 别 得 到 两 棵 树 (图 5-18a 和 图 5-18b) 的 最 左 推导 如 下 : 


a) E=E+E=I+E=>atE=at+E*E=>at+l*E=>ata*E=>ata*l=>ata*a 
i i a T L T = = 

b) E> E* E> E+ Ex E=> 1+ E* E=>a+ E*E=a+1*E=a+a*E=at+a*l=atara 
im a = = = a a = 


注意 ， 这 两 个 最 左 推导 并 不 相同 。 这 个 例子 并 不 能 证 明 下 面 的 定理 ， 但 它 说 明了 语法 分 析 
树 的 不 同 导致 了 最 左 推导 中 所 采用 的 步骤 不 同 。 口 


定理 5.29 对 于 任何 文法 G = (V, T, P, S) 和 7 中 的 串 w，w 有 两 棵 不 同 的 语法 分 析 树 当 且 仅 当 
从 5 到 w 有 两 个 不 同 的 最 左 推导 。 

证 明 ”( 仅 当 ) 如 果 检 查 定理 5.14 的 证 明 中 从 语法 分 析 树 构造 最 左 推导 的 过 程 ， 我 们 会 发 现 
只 要 两 棵 语法 分 析 树 中 有 一 个 (第 一 个 ) 下 面 这 样 的 节点 ， 在 该 节点 处 使 用 了 不 同 的 产生 式 ， 
那么 构造 的 最 左 推导 就 会 使 用 不 同 的 产生 式 ， 因 而 得 到 了 不 同 的 最 左 推导 4 

( 当 ) 虽然 前 面 并 没有 给 出 一 个 直接 从 最 左 推导 构造 语法 分 析 树 的 方法 ， 但 是 它 的 思想 并 
不 难 。 首 先 从 根 节点 开始 构造 语法 分 析 树 ， 并 把 根 节点 的 标号 设 为 9。 然 后 ， 每 次 检查 推导 中 
的 一 步 。 在 每 一 步 中 都 会 有 一 个 变 元 被 替换 ， 因 此 这 个 变 元 就 对 应 于 正在 被 构造 的 语法 分 析 树 
中 最 左边 的 没有 子 节点 但 是 标号 为 变 元 的 节点 。 由 最 左 推导 中 这 一 步 所 使 用 的 产生 式 ， 可 以 决 
定 这 个 节点 的 子 节点 分 别 是 什么 。 如果 有 两 个 不 同 的 推导 ， 那 么 在 这 两 个 推导 第 一 次 发 生 不 同 
的 地 方 ， 被 构造 的 节点 将 会 得 到 不 同 的 子 节点 的 列表 ， 这 也 保证 了 所 构造 的 语法 分 析 树 是 不 
同 的 。 口 
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5.4.4 固有 的 歧义 性 


如 果 一 个 上 下 文 无 关 的 语言 L 的 所 有 的 文法 都 是 歧义 的 ， 我 们 说 它 是 固有 疲 义 的 。 只 要 LL 有 
一 个 文法 是 无 歧义 的 ， 那 么 L 就 是 无 歧义 的 。 例 如 ， 我 们 说 图 5-2 中 的 文法 所 生成 的 表达 式 的 语 
言 实际 上 是 无 歧义 的 。 即 使 这 个 文法 是 歧义 的 ， 也 存在 另外 一 个 无 歧义 的 文法 和 它 生成 同样 的 





这 里 不 去 证 明 固有 歧义 语言 ， 而 是 讨论 一 个 能 够 证 明 其 为 固有 歧义 的 语言 的 例子 ， 我 们 将 
会 直观 的 解释 为 什么 任何 这 种 语言 的 文法 都 是 歧义 的 。 这 个 将 要 讨论 的 语言 7 是: 
L= {abed n>1,m>1}U{a"b"e"d" | n>1,m>1} 


也 就 是 说 ，L 包 含 所 有 满足 下 列 条 件 的 a*b*e*d* EAT 
1.4 和 b 的 个 数 一 样 且 c 和 d 的 个 数 一 样 ， 或 者 
2.a 和 d 的 个 数 一 样 且 b 和 ec 的 个 数 一 样 。 
L 是 上 下 文 无 关 语 言 。 图 5-22 中 所 示 的 显然 是 L 的 一 个 文法 。 它 使 用 分 离 的 产生 式 的 集合 来 
产生 中 的 两 种 类 型 的 串 。 
这 个 文法 是 歧义 的 。 例 如 ， 串 aabbccdda 有 两 个 最 左 推导 ， 
1. S=> AB=> aAbB= aabbB= aabbcBd = aabbecdd 
2. S= C= aCd = aaDdd = aabDedd = aabbecdd 


图 5-23 中 所 示 的 是 两 棵 语法 分 析 树 。 图 5-22 一 个 固有 歧义 
证 明 L 的 所 有 文法 都 一 定 是 歧义 的 过 程 是 很 复杂 的 。 然 而 ， 它 的 本 语言 的 文法 

质 如 下 。 我 们 需要 论证 几乎 是 有 限 个 数 的 其 中 a, b, c, d 的 个 数 相同 的 串 都 一 定 用 下 面 两 种 不 同 的 

方法 生成 : 一 种 方法 是 a 和 b 的 个 数 一 样 ，c 和 d 的 个 数 一 样 。 另 一 种 是 a 和 d 的 个 数 一 样 ，b 和 c 的 

个 数 一 样 。 








Pre | 
Pie Pa wa 
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a) b) 
图 5-23 aabbcedd 的 两 标语 法 分 析 树 


例如 ， 生 成 < 和 2 的 个 数 相同 的 串 的 惟一 方法 是 使 用 类 似 于 图 5-22 中 的 文法 中 4 的 变 元 。 可 能 
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有 些 变化 ， 但 这 些 变化 并 不 改变 根本 的 东西 。 例 如 : 
， 可 以 避免 一 些 短 串 ， 例 如 ， 把 基本 的 产生 式 A 一 ab 换 为 4 一 aaabbb。 
* 可 以 用 一 些 其 他 的 变 元 来 分 享 A 的 工作 ， 例 如 ， 通 过 使 用 变 元 4! 和 A。， 其 中 A 产生 奇数 个 a 
TAS EBK, RF: A1 一 ah2b | ab; A 一 aA1b。 
* 也 可 以 让 4 产生 的 a 和 b 的 个 数 不 完 全 相等 ， 而 是 差 着 某 个 有 限 的 数 。 例 如 ， 可 以 从 一 个 产 
生 式 5 一 AbB 开 始 ， 然 后 用 4 一 aAb 1a 来 生成 比 b 多 一 个 的 a 的 产生 式 。 
然而 ， 我 们 不 能 避免 某 些 生成 在 某 种 程度 上 和 b 的 个 数 相 匹配 的 个 数 的 a 的 机 制 。 
同样 的 ， 我 们 可 以 论证 一 定 存在 一 个 类 似 于 B 的 变 元 ， 它 生成 匹配 个 数 的 c 和 d。 同样 ， 该 文 
法 中 也 一 定 有 类 似 于 C (生成 匹配 个 数 的 a 和 d) MD (生成 匹配 个 数 的 b 和 c) 的 作用 的 变 元 。 形 
式 化 时 这 种 论证 能 够 证 明 不 管 我 们 对 基本 的 文法 做 怎样 的 修改 ， 它 都 能 像 图 5-22 中 的 文法 那样 
有 两 种 生成 至 少儿 个 a"b"c*d" 形 式 的 串 的 方法 。 


5.4.5 习题 


* 习 题 5.4.1 考虑 下 面 的 文法 : 
S—aS | aSbS\¢ 


这 个 文法 是 歧义 的 ， 试 证 明 串 aab 的 两 个 : 
a) 语法 分 析 树 。 
b) 最 左 推导 。 
©) 最 右 推导 。 

! 习题 5.4.2 ”证 明 习 题 5.4.1 中 的 文法 恰恰 能 够 生成 且 只 能 生成 所 有 具有 满足 下 列 条 件 的 a 和 2b 
He 该 串 的 任何 前 缀 中 4 的 个 数 至 少 要 和 2 的 个 数 一 样 多 。 

“1 习题 5.4.3 找到 一 个 习题 5.4.1 中 的 语言 的 无 歧义 的 文法 。 

N 习题 5.4.4 在 习题 5.4.1 的 文法 中 ， 有 些 a 和 b 捉 仅 有 一 棵 语法 分 析 树 。 试 给 出 一 个 有 效 的 测 
试 方法 来 判断 一 个 给 定 的 串 是 否 有 该 性 质 。 如 果 该 测试 “考虑 所 有 语法 分 析 树 来 看 产生 了 多 少 
给 定 的 串 "， 那 么 它 就 是 不 够 有 效 的 。 

! 习题 5.4.5 这 个 问题 和 习题 5.1.2 中 的 文法 有 关 ， 在 这 里 重新 写 一 遍 这 个 文法 ， 

3 一 41B 
4 一 041e 
B—0B | 1B le 


引证 明 这 个 文法 是 无 歧义 的 。 
b) 找到 一 个 生成 同样 语言 的 歧义 文法 ， 并 且 展 示 它 的 歧义 性 。 
“1 习题 5.4.6 习题 5.15 中 设计 的 文法 是 无 歧义 的 吗 ? 如 果 不 是 ， 把 它 改写 为 无 歧义 文法 。 
习题 5.4.7 下 面 的 文法 生成 的 是 具有 x 和 y 操 作 数 、 二 元 运算 符 +、 一 和 * 的 前 级 表达 式 ; 
E—+EEl* EE| —EE\xly 
a) 找到 串 +*-xyxy 的 最 左 推导 、 最 右 推导 和 一 棵 语法 分 析 树 。 
1 b) 证 明 这 个 文法 是 无 歧义 的 。 
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5.5 小 结 


。 上 下 文 无 关 文 法 ; CFG 是 通过 使 用 称 为 产生 式 的 递归 规则 描述 语言 的 一 种 方法 。CFG 由 
一 个 变 元 集合 、 一 个 终结 符号 集合 、 一 个 初始 符号 和 一 个 产生 式 集 合 构成 。 每 个 产生 式 
由 一 个 头 变 元 和 一 个 体 构成 ， 而 产生 式 的 体 是 由 零 个 或 多 个 变 元 或 终结 符号 组 成 的 串 构 
成 的 。 

* 推 导 和 语言 : 由 初始 符号 开始 ， 通 过 重复 将 某 个 变 元 替换 为 以 该 变 元 为 头 的 某 个 产生 式 的 
体 可 以 推导 出 终结 符 串 。CFG 的 语言 就 是 能 够 这 样 推导 出 来 的 终结 符 串 的 集合 ， 它 也 叫 作 
上 下 文 无 关 语言 。 

。 最 左 推导 和 最 右 推 导 : 如 果 总 是 替换 串 中 最 左 (最 右 ) 的 变 元 ， 那 么 这 种 推导 就 叫 作 最 左 
(最 右 ) 推导 。CFG 的 语言 中 的 每 一 个 串 都 至 少 有 一 个 最 左 推导 和 一 个 最 右 推导 。 

* 身 型 : 推导 过 程 中 的 任何 一 步 都 有 一 个 由 变 元 或 终结 符 组 成 的 串 ， 这 个 串 称 为 名 型。 如果 
一 个 推导 是 最 左 ( 最 右 ) 的 ， 那 么 这 种 串 就 是 左 (A) 句 型 。 

， 语 法 分 析 树 ; 语法 分 析 树 是 一 棵 能 够 展示 推导 过 程 的 本 质 的 树 。 内 部 节点 都 用 变 元 来 标号 ， 
而 叶 节 点 都 用 终结 符号 或 e 来 标号 。 对 于 每 一 个 内 部 节点 ， 一 定 存 在 一 个 以 该 节点 的 标号 
为 头 ， 以 它 的 子 节点 的 标号 从 左 到 右 连 接 起 来 为 体 的 产生 式 。 

“语法 分 析 树 和 推导 的 等 价 性 : 终结 符 串 属于 一 个 文法 的 语言 当 且 仅 当 它 是 至 少 一 棵 语法 分 
析 树 的 产物 。 因 而 ， 最 左 推导 、 最 右 推导 和 语法 分 析 树 是 否 存在 都 是 判断 一 个 串 是 否 属于 
一 个 CFG 的 语言 的 等 价 条 件 。 

， 歧 义 文法 : 对 于 某 个 CEG， 有 可 能 找到 一 个 有 多 棵 语法 分 析 树 的 串 ， 或 者 等 价 地 找到 多 个 
最 左 推导 或 最 右 推导 。 这 样 的 文法 就 是 歧义 的 。 

"去 除 歧义 性 : 对 于 很 多 有 用 的 文法 ， 比 如 用 来 描述 典型 的 编程 语言 中 的 程序 结构 的 文法 ， 
都 有 可 能 找到 一 个 无 歧义 的 文法 来 生成 和 它 同样 的 语言 。 不 幸 的 是 ， 一 个 语言 的 无 歧义 文 
法 往往 比 最 简单 的 歧义 文法 还 要 复杂 得 多 。 另 外 也 有 一 些 上 下 文 无 关 语 言 (一 般 来 说 大 多 
是 专门 设计 出 来 的 ) 是 固有 歧义 的 ， 也 就 意味 着 任何 该 语言 的 文法 都 是 歧义 的 。 

“语法 分 析 器 : 上 下 文 无 关 文法 是 对 于 编译 器 和 其 他 编程 语言 处 理 器 的 实现 很 关键 的 概念 。 
像 YACC 这 样 的 工具 以 CFG 作 为 输入 并 产生 一 个 语法 分 析 器 (推导 被 编译 程序 的 结构 的 部 
件 )。 

“文档 类 型 定义 : 正在 形成 的 XML 标 准 是 用 来 在 Web 文 档 中 共享 信息 的 ， 它 使 用 了 一 种 符号 
记号 ， 叫 作 DTD。DTD 是 用 来 通过 文档 中 嵌 套 的 语义 标记 符 来 描述 这 种 文档 的 结构 的 
DTD 本 质 上 就 是 一 种 其 语言 是 一 类 相关 文档 的 上 下 文 无 关 文法 。 


5.6 参考 文献 


上 下 文 无 关 文 法 是 由 Chomsky[4] 提 出 来 的 ， 本 来 是 计划 用 它 来 描述 自然 语言 的 。 不 久 以 后 
人 们 就 使 用 了 类 似 的 想法 来 描述 计算 机 语言 一 -Backus (巴克 斯 ) [2] 的 Fortran 和 Naur (诺尔 ) 
[7 的 Algol。 因 此 ，CFG 有 时 也 指 “ 巴 克 斯 -诺尔 型 文法 ”。 

文法 的 歧义 性 问题 是 几乎 同时 由 Cantor[3] 和 弗 洛 伊 德 Floyd[5] 指 出 的 。 固 有 歧义 性 是 由 
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ROS 下 推 自 动机 


有 一 种 类 型 的 自动 机 能 够 定义 上 下 文 无 关 语 言 ， 这 种 自动 机 称 为 “下 推 自动 机 ”"。 下 推 自动 
机 是 对 带 有 转移 的 非 确定 型 有 穷 自动 机 的 扩展 ， 而 后 者 提供 了 一 种 定义 正则 语言 的 方法 。 下 推 
自动 机 实质 上 是 附加 了 一 个 堆栈 的 seNFA， 这 个 堆栈 只 能 在 栈 顶 进行 读 、 推 人 或 者 弹出 ， 就 像 一 
个 “堆栈 ”的 数据 结构 。 

本 章 将 会 定义 两 种 不 同 版 本 的 下 推 自动 机 : 一 种 像 有 穷 自动 机 一 样 车 进入 接受 状态 来 接受 ， 
另 一 种 靠 判 断 它 的 堆栈 是 否 为 空 来 接受 而 不 管 当时 处 在 什么 状态 。 本 章 将 会 说 明 这 两 种 自动 机 
都 严格 接受 上 下 文 无 关 语言 ， 也 就 是 说 ， 文 法 可 以 被 转化 为 等 价 的 下 推 自动 机 ， 反 之 亦 然 。 本 
章 还 会 简单 地 考虑 下 推 自动 机 的 确定 性 的 子 类 ; 它们 能 够 接受 全 部 的 正则 语言 ， 但 只 是 CFL 的 
真子 集 。 因 为 它们 和 典型 的 编译 器 中 的 语法 分 析 器 的 结构 非常 类 似 ， 所 以 观察 那些 语言 结构 能 
被 或 者 不 能 被 确定 性 的 下 推 自 动机 识别 是 非常 有 意义 的 。 


6.1 下 推 自动 机 的 定义 
在 本 节 中 首先 非 形式 化 地 介绍 下 推 自动 机 ， 然 后 会 给 出 一 个 形式 化 的 定义 。 
6.1.1 非 形式 化 的 介绍 


下 推 自动 机 实质 上 是 在 带 有 转移 的 非 确定 型 有 穷 自 动机 上 附加 了 一 个 额外 的 功能 ， 一 个 可 
以 用 来 存储 一 串 “ 堆 栈 符号 ”的 堆栈 。 存 在 一 个 堆栈 意味 着 下 推 自动 机 有 一 点 不 像 有 穷 自动 机 
它 能 够 “ 记 住 ”无 限量 的 信息 。 然 而 ， 它 也 不 像 一 个 通用 的 计算 机 一 样 能 够 记 住 任意 大 量 的 信 
息 ， 下 推 自动 机 只 能 用 后 进 先 出 的 方式 来 访问 位 于 它 的 堆栈 上 的 信息 。 

下 推 自动 机 和 通用 计算 机 的 区 别 的 结果 是 ， 存 在 一 些 语言 能 被 某 个 计算 机 程序 识别 ， 但 是 
不 能 被 任何 下 推 自动 机 识别 。 事 实 上 ， 下 推 自 动机 能 且 只 能 识别 全 部 的 上 下 文 无 关 语言 。 虽 然 
有 很 多 语言 是 上 下 文 无 关 的 ， 包 括 我 们 已 经 见 过 的 不 是 正则 语言 的 那些 ， 但 是 也 确实 存在 一 些 
容易 描述 的 但 不 是 上 下 文 无 关 的 语言 ， 比 如 将 要 在 7.2 节 中 介绍 的 那些 。 一 个 非 上 下 文 无 关 语 言 
的 例子 是 {0"1"2"1n >>1}， 这 个 串 的 集合 是 由 所 有 相同 个 
数 的 0、1 和 2 的 “ 团 ” 构 成 的 。 on 

我 们 可 以 非 形式 化 地 把 下 推 自动 机 看 作 图 6-1 中 的 装 A 坊 控制 [> 接受 拒绝 
置 。“ 有 穷 状态 控制 ”用 来 一 次 从 输入 读 入 一 个 符号 。 
下 推 自动 机 可 以 观察 栈 顶 的 符号 ， 然 后 基于 当前 状态 、 
输入 符号 和 栈 顶 符号 来 进行 转移 。 除 此 之 外 它 也 可 以 用 
e 来 代替 输入 符号 来 进行 “自发 地 ”转移 。 在 一 次 转移 
中 ， 下 推 自动 机 : 图 6-1 下 推 自动 机 实质 上 就 是 一 个 

1. 消 耗 掉 在 转移 中 使 用 的 输入 符号 ， 如 果 输 入 为 。 “” 带 有 堆栈 数据 结构 的 有 穷 自 动机 
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则 不 消耗 输入 符号 。 

2. 转 到 一 个 新 的 状态 ， 新 状态 可 以 和 先前 的 状态 相同 ， 也 可 以 不 同 。 

3. 可 以 用 任何 串 来 替换 栈 顶 的 符号 。 这 个 串 可 以 是 es， 这 对 应 于 从 堆栈 中 弹出 ， 也 可 以 就 是 
先前 的 栈 顶 出 现 的 符号 ， 即 没有 改变 堆栈 的 内 容 ， 也 可 以 用 一 个 其 他 的 符号 替换 栈 顶 的 
符号 ， 这 实际 上 改变 了 栈 项 而 没有 对 栈 进 行 推 人 或 弹出 操作 ， 最 后 ， 也 可 以 用 两 个 或 多 
个 符号 来 替换 栈 项 的 符号 ， 这 样 做 的 效果 就 是 首先 改变 栈 顶 的 符号 ， 然 后 再 向 栈 里 推 人 
一 个 或 多 个 新 的 符号 。 


例 6.1 考虑 语言 
Leow={fwwslw JRF (0 +1) } 
这 个 语言 一 般 称 为 “w-w- 反 转 "， 它 是 字母 表 {0, 1} 上 的 长 度 为 偶数 的 回 文 语言 ， 也 是 把 图 5-1 中 
的 文法 去 掉 产 生 式 P 一 0 和 P 一 1 后 生成 的 CFL。 A 
我 们 可 以 非 形式 化 地 设计 一 个 接受 Ls 的 下 推 自动 机 ， 方 法 如 下 9 ， 
1 从 状态 qo 开始 ， 处 于 这 个 状态 表示 “猜测 ”我 们 还 没有 到 达 中 间 ， 也 就 是 说 ,还 没有 见 
到 串 w 的 末尾 ， 也 就 还 没有 开始 进入 ws 的 部 分 。 当 处 在 状态 qu 时 ， 读 入 符号 然后 把 它们 存 
入 堆栈 ， 具 体 的 方法 是 把 每 一 个 输入 符号 按 顺 序 推 入 堆栈 。 
2. 任 何 时 刻 都 可 以 猜测 我 们 已 经 到 达 了 中 间 ， 也 就 是 说 ， 到 达 了 w 的 末尾 。 这 时 ， 堆 栈 中 的 
正 是 w， 只 不 过 w 的 左 端 在 堆栈 的 底部 而 w 的 右 端 在 堆栈 的 顶部 。 此 时 通过 自发 地 转 到 状 
态 q! 来 表示 这 个 选择 。 由 于 这 个 自动 机 是 非 确定 型 的 ， 所 以 实际 上 我 们 在 进行 两 个 猜测 ; 
我 们 猜测 我 们 已 经 到 了 w 的 末尾 ， 而 我 们 同时 仍然 处 在 状态 go 并 且 继续 读 人 输入 证 并 把 它 
们 存在 堆栈 上 。 
3. 一 旦 到 达 状 态 q1， 就 可 以 把 输入 符号 和 栈 顶 的 符号 做 比较 。 如 果 它 们 相同 ， 那 么 就 消耗 
掉 输 入 符号 、 弹 出 栈 顶 符号 并 且 继 续 比较 。 如 果 它 们 不 相同 ， 那 么 我 们 就 猜 错 了 ; 我们 
猜测 的 w 后 面 并 没有 跟着 ws， 这 个 分 支 就 死 了 ， 但 是 这 个 非 确定 型 自动 机 的 其 他 分 支 可 能 


还 活着 并 且 最 后 有 可 能 导致 接受 。 
4. 如 果 堆 栈 室 了 ， 那 么 实际 上 已 经 看 到 了 某 个 输入 w， 它 后 面 跟着 的 ws; . 这 时 我 们 接受 从 开 
始 到 当前 点 所 读 人 的 串 。 口 


6.1.2 下 推 自动 机 的 形式 化 定义 


下 推 自动 机 (Pushdown Automaton, PDA) 的 形式 化 定义 包括 七 部 分 。PDA 的 描述 如 下 ; 
P=(Q, 2,18, q0,Z,F) 
这 些 组 成 部 分 的 意义 如 下 : 
Q: 状态 的 有 穷 集合 ， 就 像 有 穷 自 动机 中 的 状态 。 
Z: 输入 符号 的 有 穷 集 合 ， 它 也 和 有 穷 自动 机 中 对 应 的 部 分 很 类 似 。 


全 ”我 们 也 可 以 为 图 5-1 中 出 现 的 文法 对 应 的 语言 Lx 设计 一 个 自动 机 。 但 是 1 要 比 它 简单 一 些 ， 因 此 可 以 让 我 们 
更 加 着 眼 于 下 推 自动 机 的 重要 思想 。 
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六， 有限 的 堆栈 字母 帮 。 在 有 穷 自 动机 中 没有 和 这 个 部 分 类 似 的 部 分 ， 该 部 分 是 能 够 被 推 人 
堆栈 的 符号 的 集合 。 

5: 转移 函数 。 和 有 穷 自动 机 中 的 转移 函数 类 似 ，6 控 制 着 自动 机 的 行为 。 形 式 上 ，6 的 自 变 
量 为 一 个 三 元 组 0(q, aX), Hp: 
1) 4 是 C 中 的 状态 。 
2) a 或 者 是 中 的 输入 符号 ， 或 者 是 空 串 es， 假 定 s 不 是 输入 符号 。 
3) X 是 堆栈 符号 ， 也 就 是 T 中 的 成 员 。 
6 的 输出 是 序 对 (p, 7 的 有 穷 集 合 ， 其 中 p 是 新 状态 ，)} 是 堆栈 符号 串 ，? 是 用 来 代替 栈 项 符 
号 X 的 。 例 如 ， 如 果 Y = s， 那 么 栈 顶 元 素 弹出 ， 如 果 y = X， 那 么 堆栈 没有 改变 ， 如 果 Y = 
JZ， 那 么 X 被 Z 代 替 ， 然 后 y 被 推 人 堆栈 中 。 

qo: 初始 状态 。 在 做 任何 转移 之 前 ，PDA 处 于 这 个 状态 。 

Zo: 初始 符号 。 开 始 时 ，PDA 的 堆栈 中 包含 一 个 这 个 符号 的 一 个 实例 ， 除 此 之 外 就 没有 别 
的 符号 了 。 

F: 接受 状态 (或 终结 状态 ) 的 集合 。 





不 要 “混合 与 匹配 ” 


PDA 在 有 些 情况 下 可 以 选择 多 个 序 对 之 一 。 例 如 ， 假 设 5(q,a,X) = {(p, YZ), (r, £}. BB 
么 当 该 PDA 移 动 一 步 时 ， 我 们 要 从 所 有 可 能 的 序 对 中 选 出 一 个 ， 我 们 不 能 从 一 个 序 对 中 选 
出 状态 而 同时 从 另 一 个 序 对 中 选 出 替代 栈 项 的 串 。 因 此 ， 如 果 当 前 在 状态 4， 栈 项 符号 为 X， 
输入 为 4s， 那 么 可 以 转 到 状态 p， 同 时 用 YZ 来 代 圭 X， 也 可 以 转 到 状态 "同时 弹出 X。 但 是 ， 
不 能 转 到 状态 p 同 时 弹出 X， 也 不 能 转 到 状态 r 同 时 用 YZ 来 代替 X。 








例 6.2 ”设计 一 个 接受 例 6.1 中 的 语言 Lww 的 下 推 自动 机 P。 首 先 ， 在 上 一 个 例子 中 有 一 些 细 
节 并 没有 给 出 ， 而 为 了 理解 怎样 才能 正确 地 管理 堆栈 需要 这 些 细节 。 我 们 将 会 使 用 一 个 堆栈 符 
号 Zo 来 标记 栈 底 ， 需 要 这 个 符号 是 因为 在 从 堆栈 中 把 w 全 部 弹出 并 知道 输入 串 是 符合 ww 的 形式 
的 之 后 ， 我 们 仍然 需要 堆栈 中 有 东西 可 以 使 我 们 转移 到 接受 状态 9:。 因 此 ，Lww 的 PDA 可 以 描 
BA: 
P = ({qo, 41,92}, {0, 1}, {0, 1, Zo}, 5, qo, Zo, {92}) 
其 中 6 是 由 下 面 的 规则 定义 的 
1. &qo, 0, Zo) = {(Go, 0Zo)}, H(go, 1, Zo) ={(qo, 1Zo)}。 在 开始 时 ， 当 处 在 状态 9%o， 并 且 栈 顶 符 
号 为 初始 符号 Zo 时 就 要 应 用 上 面 两 条 规则 中 的 一 条 。 我 们 读 和 第 一 个 输入 符号 ， 然 后 把 
它 推 人 堆栈 中 ， 以 后 都 用 Z 来 标记 栈 底 。 


2. go,0,0) = {(q0,00)}, &qo, 0, 1) = {(qo, 01)}, &go, 1,0) = {(qo, 10)}, go, 1, 1) = {(qo, 11)}. 
这 四 条 很 相似 的 规则 能 够 让 我 们 一 直 处 在 状态 go 并 读 人 输入 ， 接 着 不 管 当前 的 栈 顶 符号 
是 什么 都 把 输入 符号 推 入 堆栈 。 


3. (qo, € Zo) ={(q1, Za}, H(qo, 2,0) ={(q1,0)}，6(qo, £, 1) ={(qr, D}。 这 三 条 规则 允许 P 自 发 地 
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(输入 为 e) 从 状态 qo 转 到 状态 q+， 同 时 无 论 栈 顶 符号 是 什么 都 保持 栈 顶 符号 不 变 。 
4.5G 0, 0) ={(q €}, Oi. 1, 1) ={(g 9}。 现 在 ， 在 状态 9, 时 可 以 比较 输入 符号 和 栈 项 符 


号 ， 如 果 它 们 相同 则 弹出 栈 顶 符号 。 


5. &(q1, €, Zo) ={(q2, Z)}。 最 后 ， 如 果 露 出 了 栈 底 标记 Zi 并 且 处 在 状态 9i 那么 就 已 经 找到 了 


ww 形式 的 输入 串 ， 就 转 到 状态 9 并 接受 。 


6.1.3 PDA 的 图 形 表示 


口 


像 例 62 中 那样 列 出 6 的 行为 并 不 总 是 很 容易 理解 的 。 有 时 用 一 张 图， 就 像 推广 了 的 有 究 自动 
机 的 转移 图 一 样 ， 能 够 让 一 个 给 定 的 PDA 的 行为 的 各 个 方面 更 加 清楚 。 因 此 本 节 将 要 介绍 后 面 
会 用 到 的 PDA 的 转移 图 ， 在 转移 图 中 : 


a) 节点 对 应 于 PDA 的 状态 。 


b) 一 个 标号 为 Start 的 箭头 指出 初始 状态 ， 双 围 表 示 的 状态 是 接受 状态 ， 这 些 和 有 穷 自 动机 


中 的 相同 。 


©) 用 箭 弧 来 对 应 PDA 的 转移 ， 具 体 表示 方法 如 下 : 一 个 从 状态 4 到 状态 p 的 标号 为 , Xe 的 弧 
表示 6(q, a, 加 包含 序 对 (p, 0)， 可 能 还 有 其 他 的 序 对 。 也 就 是 说 ， 弧 的 标号 表示 使 用 的 输 
入 符号 并 给 出 旧 的 栈 顶 和 新 的 栈 顶 。 
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图 6-2 用 推广 的 转移 图 来 表示 PDA 
这 个 转移 图 惟一 没有 告诉 我 们 的 事情 是 哪个 堆栈 符号 是 初始 符号 。 按 照 习惯 ， 如 果 不 另外 


例 6.3 例 6.2 中 的 PDA 可 以 用 图 6-2 中 的 转移 图 来 表示 。 口 


6.1.4 PDA 的 瞬时 描述 


到 现在 为 止 对 于 PDA 是 怎样 “计算 ”的 还 只 有 一 个 非 形式 化 的 概念 。 直 观 上 ，PDA 通 过 
对 输入 符号 (或 者 有 时 是 s) 作出 反应 来 从 一 个 配置 转 到 另 一 个 配置 。 但 是 和 有 穷 自 动机 不 同 的 
是 ，PDA 的 配置 不 仅仅 包括 它 的 状态 ， 还 包括 它 的 堆栈 的 内 容 ， 而 在 有 穷 自动 机 中 关于 自动 机 
惟一 需要 知道 的 就 是 状态 。 堆 栈 容量 是 可 以 任意 大 的 ， 因 此 在 任何 时 候 堆栈 都 是 一 个 对 PDA 的 
整个 配置 来 说 比较 重要 的 部 分 。 把 剩余 的 〈 还 未 读 和 人 的) 输入 串 也 表示 为 PDA 的 配置 的 一 部 分 
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往往 也 很 是 有 用 的 。 

因此 ， 应 该 用 三 元 组 〈4,w,y) 来 表示 PDA 的 配置 ， 其 中 

1.9 是 状态 。 

2. w 是 剩余 的 输入 串 。 

3. ) 是 堆栈 的 内 容 。 
习惯 上 ， 把 栈 顶 放 在 ?的 左 端 ， 栈 底 放 在 它 的 右 端 。 这 样 的 一 个 三 元 组 被 称 为 下 推 自动 机 的 一 个 
statii (instantaneous description, ID), 

对 于 有 穷 自动 机 来 说 ， 在 它 的 移动 过 程 中 用 符号 生来 表示 瞬时 描述 的 序列 就 已 经 足够 了 ， 
原因 是 有 穷 自 动机 的 ID 只 包括 它 的 状态 。 然 而 ， 对 PDA 来 说 我 们 需要 能 够 表示 状态 、 输 入 和 堆 
栈 的 改变 。 因 此 ， 我 们 采用 “tumstile” 表 示 法 来 连接 一 对 对 的 ID， 这 种 表示 法 能 够 表示 PDA 的 
一 步 或 多 步 移动 。 

令 P =(Q, E,T, 5,90, Do 有 是 一 个 PDA。 定义 上 (如 果 P 是 已 知 的 ， 那么 也 可 以 仅仅 用 上 来 
表示 ) 为 : 假设 5(q,a, 加 包含 (p, o)， 那 么 对 于 所 有 了 中 的 串 w 和 三 中 的 串 有 都 有 : 

(q,aw, XB) H (p, w, a P) 
这 一 步 移动 反映 了 下 面 的 想法 : 通过 从 输入 中 消耗 。( 也 可 能 是 e) 并 且 用 a 来 替换 栈 顶 的 X， 可 
以 从 状态 q 转 到 状态 p。 注 意 ， 剩 余 的 输入 w 和 栈 顶 以 下 的 内 容 B 并 不 影响 PDA 的 动作 ， 它 们 保持 
不 变 ， 并 且 有 可 能 影响 以 后 将 要 发 生 的 事件 。 

同样 ， 我 们 也 使 用 符号 K (或 者 当 PDA P 已 知 的 时 候 使 用 F) 来 表示 PDA 的 零 步 或 多 步 移 
动 ， 也 就 是 : 

基础 : 对 于 任何 ID 了 都 有 1 上 7。 

归纳 ， 如 果 存 在 某 个 ID KIMI | K 和 K 上 J， 那么 就 有 /上 J 

也 就 是 说 ， 如 果 存在 ID 的 序列 Kl，K，…，K 满足 1 = Ki, J= K, ， 并 且 对 于 所 有 的 ; = 1, 
2，…，n 一 1 都 有 Ki, Kier, WARA FJ. 


例 6.4 ”考虑 例 6.2 中 PDA 在 输入 为 1111 时 的 动作 。 由 于 qo 是 初始 状态 ，Zo 是 初始 符号 ， 因 此 
初始 ID 是 (go, 1111, Z)。 在 这 个 输入 下 ， 该 PDA 有 猜 错 多 次 的 机 会 。 图 6-3 中 给 出 的 是 PDA 从 初始 
ID(o, 1111, Zo) 能 到 达 的 整个 ID 序列 。 箭 头 代表 关系 Ho 

从 初始 ID 开始 ， 有 两 个 可 选 的 移动 。 第 一 个 猜测 还 没 到 中 间 因 此 导致 ID(g, 111, 120)。 实 际 
上 是 从 输入 中 去 掉 一 个 1 并 且 把 它 推 人 堆栈 。 

从 初始 ID 开始 的 第 二 个 选择 是 猜测 已 经 到 达 了 输入 串 的 中 间 ， 因 此 不 消耗 输入 ，PDA 转 到 
状态 4,， 因 而 导致 ID (q, 1111, Zo)。 由 于 当 处 在 状态 g, 并 且 栈 顶 是 Zi 时 PDA 可 能 会 接受 ， 因 此 该 
PDA 接 着 到 达 ID (q2, 1111, Zo)。 这 个 ID 实际 上 并 不 是 一 个 接受 ID, 因为 输入 串 还 没有 完全 被 消耗 。 
如 果 输 入 不 是 1111 而 是 e 的 话 ， 这 个 移动 序列 会 导致 ID (qi, s, Zo)， 这 也 意味 着 e 被 接受 。 

该 PDA 也 可 以 在 读 入 一 个 1 后 ， 也 就 是 说 ， 当 它 处 在 ID (go, 111, 126) 时 ， 猜 测 它 已 经 到 达 了 
中 间 。 这 个 猜测 同样 会 失败 ， 因 为 整个 输入 没有 被 完全 消耗 。 惟 一 正确 的 猜测 是 当 读 入 两 个 1 后 
到 达 中 间 ， 这 个 猜测 能 够 给 出 ID 的 序列 (go 1111, Zo) 上 (go, 111, 120) 上 (go, 11, 112) H (qi, 11, 
11Z) 上 (qi, 1, 120) + (qu, £, Zo) | (Q2, £, Zo) 口 
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| 

09, HL17o) (q, 111,20) = (%, 120) 
| 

(q+ 11,1120) (gh120) — ( q 11, Zg) 
pins 

(9 和 ,LIIZ0o) Ca » 11, 01Z9 Ch.1, Zo) 
i 9 

(q+ elz0) Ca. MZ) gy, v120) 
| | | 

Cape E IMZA) Come Zo) ip Car Eizo 

Ch. e, Zo) 


图 6-3 例 62 中 的 PDA 在 输入 为 1111 时 的 ID 

有 三 条 关于 ID 和 它们 之 间 的 转移 的 重要 原则 对 于 我 们 讨论 PDA 的 性 质 是 非常 有 用 的 ; 

1. 如果 对 于 一 个 PDA P 来 说 ， 一 个 ID 的 序列 (计算) 是 合法 的 ， 那 么 在 把 一 个 同样 的 串 加 
到 该 序列 中 所 有 1ID 的 输入 串 的 未 尾 (第 二 个 部 分 ) 后 所 得 到 的 计算 也 同样 是 合法 的 。 

2. 如 果 对 于 一 个 PDA P 来 说 ， 一 个 计算 是 合法 的 ， 那 么 在 把 一 些 同样 的 堆栈 符号 加 到 该 序 
列 中 所 有 ID 的 堆栈 的 底部 后 所 得 到 的 计算 也 同样 是 合法 的 。 

3. 如 果 对 于 二 个 PDA P 来 说 ， 一 个 计算 是 合法 的 ， 并 且 输 入 串 的 尾部 还 有 未 被 消耗 的 部 
分 ， 那 么 可 以 从 该 序列 中 所 有 ID 的 输入 中 去 掉 这 个 尾部 ,这 样 所 得 到 的 计算 也 同样 是 合 
法 的 。 

直观 地 看 ，P 从 来 都 “看 不 到 ”的 数据 不 会 影响 它 的 计算 。 我 们 用 一 个 定理 来 形式 化 (1) 和 

(2) 两 点 。 


定理 6.5 MRP =(Q, ¥,T, ð, qo, Zo, 站 ) 是 一 个 PDA， 并且 (q, x, a) B Oy 局， 那么 对 于 所 
有 区 "中 的 串 w 和 三 中 的 串 ) 都 有 
(4, xw, ay) bp, yw, By) 
注意 ,如 果 y= s， 那 么 就 得 到 原则 (1) 的 形式 化 命题 ， 如 果 w = e， 那 么 得 到 的 就 是 第 二 个 原则 。 
证 明 “该 证 明 实际 上 是 对 从 ID(q, aw, AAI, yw, 有 的 ID 序列 的 步 数 的 一 个 非常 简单 的 归纳 。 
序列 (9, x, 四 h (p: y, 局 中 的 每 一 步 移动 都 能 通过 没有 使 用 w 和 ;的 P 的 转移 来 验证 。 因此 ， 当 把 w 
和 ;分 别 加 入 输入 的 末尾 和 栈 底 后 该 序列 中 的 每 一 步 移动 依然 是 正确 的 。 o 
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PDA 的 习惯 记号 


我 们 仍然 继续 使 用 为 有 穷 自动 机 和 文法 介绍 的 习惯 的 符号 用 法 。 在 继续 使 用 这 些 记号 的 过 
程 中 ， 我 们 应 该 认识 到 堆栈 符号 其 实 是 和 CFG 中 的 终结 符 集 和 变 元 集 的 并 集 很 类 似 的 。 因 此 

1. 输 入 字母 表 中 的 符号 用 字母 表 中 开头 的 几 个 小 写字 母 (如 a、b 等 ) 来 表示 。 

2. 状态 一 般 用 g 和 p 或 字母 表 中 与 它们 接近 的 几 个 字母 来 表示 。 

3: 输 入 符号 串 用 字母 表 中 结尾 的 几 个 小 写字 母 (如 w 或 z) 来 表示 。 

4 堆栈 符号 用 字母 表 中 结尾 的 几 个 大 写字 母 (如 X 或 7) 来 表示 。 

5. 堆 栈 符 号 串 用 小 写 的 希腊 字母 (如 a 或 y) 来 表示 。 





顺便 提 一 下 ,这 个 定理 的 逆 命 题 并 不 成 立 。 原因 是 PDA 可 以 通过 把 y 中 的 一 些 符号 弹出 堆栈 ， 
然后 再 重新 把 它们 放 回 堆栈 的 方法 来 做 一 些 事情 ， 但 是 当 该 PDA 看 不 到 y 时 就 无 法 完成 这 些 事情 
T. 不过， 就 像 原则 (3) 中 所 说 的 那样 ， 可 以 去 掉 没 有 使 用 的 输入 部 分 ， 原 因 是 PDA 不 可 能 在 消 
耗 掉 输入 符号 后 再 把 它们 放 回 到 输入 中 去 。 因 此 可 以 这 样 形式 化 地 叙述 原则 (3): 


定理 6.6 MRP =(Q, X,T, 6, qo, Zo, 下 是 一 个 PDA， 并 且 (q,xw,@) E (p, yw, 及， 那么 就 有 
(qx 0 @,y,B). o 





有 穷 自动 机 的 ID? 


有 人 可 能 会 疑惑 为 什么 不 像 PDA 中 的 ID 一 样 给 有 穷 自 动机 也 引入 一 种 类 似 的 记号 表 
示 。 虽 然 FA 没有 堆栈 ， 但 是 仍然 可 以 使 用 序 对 (g, w) 来 作为 有 穷 自动 机 的 ID， 其 中 g 表 示 状 
态 ，" 表 示 剩 余 的 输入 串 。 

虽然 可 以 这 么 做 ， 但 是 我 们 无 法 通过 这 样 做 得 到 比 6 记号 所 能 得 到 的 更 多 的 关于 ID 
之 间 可 达 性 的 信息 。 也 就 是 说 ， 对 于 任何 一 个 有 穷 自动 机 ， 可 以 证 明 ， 对 于 所 有 的 串 x，$ 
(4, w) = p 当 且 仅 当 (g, wx) Fp, x)。x 可 以 是 我 们 希望 的 任何 串 ， 它 不 会 影响 到 FA 的 行为 ， 
这 一 事实 是 和 定理 6.5 和 定理 6.6 类 似 的 定理 。 





6.1.5 习题 


习题 6.1.1 假设 PDA P=({4,p}, {0,1}, {Zo,X}, 5, q, Zo, {pD 具 有 下 列 转移 函数 : 
1, &q, 0, Zo) = {(q, XZ)}. 

2. 6g, 0, X) = {(q, XX)}. 

3. 6(q, 1, X) = {(4, X}. 

4. &q, £, X) = {(p, 8}. 

5. Kp, £, X) = {(p, 2)}。 

6. &p, 1, X) ={(p, XX)}. 

7. &p, 1, Zo) = {(p, 8}. 








234| 
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那么 从 初始 ID (q, w, Zo) 开始 ， 给 出 当 输入 串 w 为 下 面 的 串 时 所 有 可 达 的 ID: 
*a)0l, 

b) 0011, 

c) 010, 


6.2 PDA 的 语言 


前 面 假定 PDA 通 过 消耗 输入 并 且 进 入 接受 状态 来 接受 它 的 输入 串 。 这 种 接受 的 方法 称 为 
“以 终结 状态 方式 接受 "。 除 此 以 外 还 有 第 二 种 定义 PDA 的 语言 的 方法 ， 这 种 方法 同样 也 有 很 重 
要 的 应 用 。 我 们 可 以 通过 “以 空 栈 方式 接受 ”来 定义 PDA 的 语言 ， 也 就 是 说 ， 该 PDA 的 语言 由 
所 有 从 初始 ID 开 始 能 够 最 终 导 致 该 PDA 的 堆栈 排 空 的 串 构成 。 

这 两 种 方法 是 等 价 的， 因为 对 一 个 语言 L 来 说 ， 存 在 一 个 PDA 以 终结 状态 方式 接受 L 当 且 仅 
当 存 在 一 个 PDA 以 空 栈 方 式 接受 L。 然 而 ， 对 于 一 个 给 定 的 PDA P，P 能 够 以 终结 状态 方式 接受 
的 语言 限 P 能 够 以 空 栈 方式 接受 的 语言 往往 是 不 同 的 。 在 本 节 中 将 会 展示 怎样 把 一 个 以 终结 状态 
方式 接受 L 的 PDA 转 换 为 男 一 个 以 空 栈 方式 接受 L 的 PDA， 反 之 亦 然 。 


6.2.1 以 终结 状态 方式 接受 


设 P= (CQ,Z,T, 6,qo,20, 丰 是 一 个 PDA， 那 么 P 以 终结 状态 方式 接受 的 语言 L(P) 是 : 
{w I (qo, w, Zo) K (q, €, @)} 


其 中 9 是 5 中 的 某 个 状态 ，o 是 任何 堆栈 符号 串 。 也 就 是 说 ， 从 以 w 为 等 待 输入 的 串 的 初始 ID 出 发 ， 
P 消 耗 了 输入 的 w 并 且 进 入 了 接受 状态 。 在 那 一 时 刻 堆栈 中 的 内 容 无 关 。 


例 6.7 ”在 前 面 说 过 例 62 中 的 PDA 接 受 语言 [wr， 也 就 是 所 有 形式 为 ww* 的 {0，1}" 中 的 申 构 
成 的 语言 ， 现 在 来 看 看 这 个 结论 为 什么 成 立 。 这 个 证 明 是 一 个 当 且 仅 当 命题 , 例 6.2 中 的 PDA P 
能 以 终结 状态 方式 接受 串 x 当 且 仅 当 x 是 ww 形式 的 。 

( 当 ) 这 部 分 证 明 比 较 容易 ， 只 需要 证 明 P 的 接受 计算 过 程 。 如 果 x = ww*， 那 么 有 

(qo, ww, Zo) FC go, w°, wsZo) | (qi, w, wZo) F (gi, E, Zo) | (qz, £, Zo) 
也 就 是 说 ， 该 PDA 的 一 个 选择 就 是 从 输入 中 读 人 w 并 把 它 按 逆序 放 到 堆栈 中 ， 接 着 自发 地 转 到 状 
态 q1， 然 后 用 站 上 的 串 来 和 输入 中 相同 的 串 w* 匹配 ， 最 后 自发 地 转 到 状态 q2。 

( 仅 当 ) 这 部 分 证 明 相 对 较 难 。 首 先 ， 通 过 观察 可 以 发 现 进 入 接受 状态 qs 的 惟一 的 途径 是 处 
在 q! 时 栈 顶 为 22。 还 有 ，P 的 任何 接受 计算 一 定 是 从 go 开始 ， 仅 转移 一 次 到 gq， 并且 在 此 之 后 永 
远 不 会 回 到 go。 因 此， 找到 满足 ( qo,x, Zo) F(q, €, 2) 的 x 满足 的 条 件 就 是 够 了 ， 而 这 些 条 件 恰好 
是 P 以 终结 状态 方式 接受 的 串 +。 下 面 将 通过 对 ll 进行 归纳 来 证 明 一 个 更 加 一 般 的 命题 : 


“如 果 有 (go,z, a) Fiq s 0)， 那 么 x 一 定 是 ww* 形式 的 。 


基础 如果 x = e， 那 么 * 就 已 经 是 ww* 形式 的 了 (其 中 mw = e) ， 因 而 结论 成 立 。 注 意 并 不 需 
要 证 明 有 (qo, £a) F(q sq 成立 ， 虽 然 它 确实 成 立 。 
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归纳 : 假设 + = aia2…as， 其 中 n>0。 从 ID(qo,x, aq 出 发 ，P 有 两 种 选择 : 
1.@, x,a) 上 (gx, ac)， 当 P 处 在 状态 q, 时 它 只 可 以 从 堆栈 中 弹出 符号 ， 而 且 必须 弹出 它 读 
到 的 符号 ,并 且 已 知 Kt>0。 因 此 ， 如 果 (qi, x a) F(q. e 月 ， 那 么 一定 比 o 钴 而 且 不 等 
Fa, 
2. (qo, qiq2…an, A) 上 (qo, a2…an, a1q), 如 果 一 个 动作 序列 的 最 后 一 步 移动 是 从 栈 中 弹出 的 话 ， 
那么 这 个 移动 序列 能 以 (qi, E g) 结 束 的 惟一 方式 是 : 
(gao aia) (Qi, €, 0) 
而 在 这 种 情况 下 ， 一 定 有 ai = an。 并 且 已 知 
(go ,aan a1) F (Gi, an, a1) 
根据 定理 6.6 可 知 ， 由 于 符号 o. 并 没有 被 使 用 ， 因 此 可 以 把 它 从 输入 串 的 末尾 去 掉 。 因 此 ， 
(qo, ax: "an1, a1) (qi, €, aia) 
因为 这 个 移动 序列 的 输入 串 的 长 度 小 于 ma， 因 此 可 以 对 它 使 用 归纳 假设 而 得 出 结论 ，a… 
an-! 一 定 是 ?形式 的 ， 其 中 ?是 某 个 串 。 因 为 x = apyya， 并 且 已 知 a = as， 所 以 可 以 得 出 
最 终 的 结论 : x 是 ww 形式 ， 其 中 w= ay, 
对 于 证 明 惟 一 接受 x 的 途径 为 x 必须 满足 ww* 形式 来 说 ， 上 面 给 出 了 关键 的 部 分 。 因 此 ， 我 们 
完成 了 整个 证 明 的 “ 仅 当 ” 部 分 ， 跟 前 面 已 经 完成 的 “充分 性 ”部 分 合 起 来 就 得 到 了 完整 的 结 
论 ，P 恰 好 接受 Lv 中 的 串 。 口 


6.2.2 以 空 栈 方式 接受 
对 于 一 个 PDA P=(Q, X,T, ô, qo, Zo,F)， 我 们 定义 
N(P)= {w | Go, w, Zo) F(q, €, £)} 
其 中 gq 是 任何 状态 。 也 就 是 说 ，N(P) 是 能 让 P 消 耗 完 的 同时 堆栈 为 空 的 输入 申 w 的 集合 。。 


例 6.8 ” 例 6.2 中 的 PDA P 的 堆栈 从 来 就 不 会 变 空 ， 因 此 N(P) = 多 。 然 而 ， 可 以 通过 对 P 进 行 
很 小 的 修改 使 它 能 够 以 空 栈 方式 和 终止 状态 方式 接受 Lww 一 一 只 要 用 6(q1, £, Zo) ={(qz, 6)} 来 代替 
(qi, €, Zo) ={(qz, 20)} 即 可 。 这 样 ，P 通 过 弹出 堆栈 中 最 后 一 个 符号 来 接受 输入 串 ， 此 时 L(P) = 
N(P) = Po 口 


因为 接受 状态 的 集合 是 不 相关 的 ， 因 此 ， 如 果 我 们 只 关心 P 通 过 空 栈 方式 接受 的 语言 ， 则 
可 以 去 掉 PDA P 的 描述 中 的 最 后 一 个 (第 7 个 ) 分 量 。 因 此 ， 可 以 把 P 写 做 一 个 六 元 组 (2，z3 ,也 
ô, qo ,20)。 


6.2.3 ”从 空 栈 方式 到 终结 状态 方式 


我 们 将 要 证 明和 所 有 的 PDA P 所 对 应 的 LP) 所 组 成 的 语言 类 和 所 有 的 PDA P 所 对 应 的 N(P) 所 
组 成 的 语言 类 是 相同 的 ， 并 且 这 个 类 恰好 也 就 是 在 6.3 节 中 所 介绍 的 上 下 文 无 关 语言 。 下 面 的 第 


© MP) 中 的 N 代 表 “null stack"， 是 空 栈 (“empty stack") 的 同义词 。 








235) 
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一 个 构造 方法 说 明 怎样 在 已 有 的 一 个 以 空 栈 方式 接受 语言 5 的 PDA Pw 的 基础 上 构造 一 个 以 接受 
状态 方式 接受 L 的 PDA Pr, 


定理 6.9 如 果 对 于 PDA Py = (Q, F, T, ôv, qo ,Zo) 来 说 有 工 = N(Pw)， 那 么 存在 一 个 PDA Pr 
使 得 L = LPF)。 

证 明 ”该 证 明 背 后 的 思想 如 图 6-4 所 示 。 我 们 使 用 一 个 新 的 不 在 中 的 符号 X%， 它 既是 Pr 的 
初始 符号 ， 也 是 一 个 放 在 栈 底 能 让 我 们 知道 Py 的 堆栈 已 经 空 了 的 标记 。 也 就 是 说 ， 如 果 Pr 在 它 
的 栈 顶 看 到 X。， 那 么 它 就 知道 Py 在 同样 的 输入 串 上 它 的 堆栈 会 为 空 。 


€, X/e 





E Xo/e 
图 6-4 户 能 够 模拟 Pw， 并 且 当 Py 的 堆栈 为 空 时 接受 输入 串 


我 们 还 需要 一 个 新 的 初始 状态 p。，， 它 惟一 的 作用 就 是 把 Z。( 也 就 是 PR 的 初始 符号 ) 压 入 堆 
栈 中 ， 然 后 进入 状态 qo。 (Pn 的 初始 状态 )。 在 此 之 后 ，Pr 模 拟 Pw， 直 到 Pn 的 堆栈 为 空 一 -Pe 能 够 
检测 出 这 个 事实 ， 原 因 是 这 时 的 栈 顶 符号 会 是 Xo。 最 后 ， 我 们 需要 另外 一 个 新 的 状态 p/ ， 它 是 Pe 
的 接受 状态 ， 当 发 现 Pw 的 堆栈 会 变 为 空 时 Pr 就 转移 到 接受 状态 py。 

因此 Pr 的 描述 如 下 : 

Pr = (QU {po, py}, £,TU{Xo)},6r po , Xo, {py}) 
其 中 6 的 定义 是 : 
1. ôr (Po, £, Xo) = {(qo, ZoXo)}。 当 P; 在 初始 状态 时 ， 它 会 自发 地 转移 到 Pw 的 初始 状态 ， 把 它 
的 初始 符号 Zo 压 入 到 堆栈 中 。 
2. 对 于 Q 中 的 所 有 的 状态 9、 中 的 输入 符号 a 或 者 a = ROPER EY, de (q, a, YE 
含 iv(qg,a, 妃 中 的 所 有 序 对 。 

3. 对 规则 (2) 做 一 些 补充 : 对 于 C 中 的 每 个 状态 4，5r(q, e, Xo) 包 含 (pj, e 
我 们 必须 要 证 明 ，w 属 于 L(Pr) 当 且 仅 当 w 属 于 N(Pw)。 

( 当 ) 已 知 对 于 某 个 状态 4 有 (go, w, Zo) Hi, (Gs €, 5)。 定 理 6.5 允 许 在 栈 底 插 入 加 并 且 能 够 得 到 
(qo, w, ZoXo) B, (qs €, Xo)。 因 为 根据 规则 (2)，Pr 拥有 Pw 所 有 的 移动 ， 所 以 可 以 得 出 结论 (go, w, 
ZoXo) Fp Qs 6,Xo)。 如 果 把 这 个 移动 序列 和 规则 (1) 和 (3) 中 给 出 的 初始 移动 和 最 终 移动 结合 起 来 ， 
就 可 以 得 到 : 

(Po, w, Xo) Hp (qo w, ZaXo) E, (qs £, Xo) kip (pn £+ £) (6-1) 


Download at http://www.pinSi.com/ 


FRA MM 161 





因此 ，Pr 以 终止 方式 接受 w。( 仅 当 ) 只 要 我 们 能 够 注意 到 规则 (1) 和 (3) 提 供 的 附加 转移 能 够 把 以 
接受 状态 方式 接受 w 的 方式 限制 得 很 “ 死 "， 就 能 得 出 反方 向 的 结论 。 我 们 必须 在 最 后 一 步 使 用 
规则 (3)， 并 且 当 Pe 的 堆栈 中 只 有 Xo 时 我 们 只 能 够 使 用 这 条 规则 。 除 了 栈 底 ， 和 不 会 出 现在 堆栈 
中 的 其 他 位 置 。 而 且 ， 规则 (1) 只 能 在 第 一 步 使 用 ,而 且 第 一 步 必须 使 用 这 条 规则 。 

因此 ， 接 受 w 的 Pe 的 整个 计算 一 定 像 (6-1) 中 的 序列 那样 。 此 外 ， 这 个 计算 的 中 间 部 分 ( 除 
了 第 一 步 和 最 后 一 步 ) 一 定 也 是 一 个 Ps 的 计算 ， 并 且 在 这 个 计算 中 一直 处 在 栈 底 。 原 因 是 : 
除了 第 一 步 和 最 后 一 步 ，Pr 不 可 能 使 用 Py 中 没有 的 转移 ，Xo 也 不 可 能 被 暴露 出 来 ， 否 则 在 下 一 


步 计算 就 会 结束 。 因 此 可 以 得 出 结论 (qo, w, Zo) ty (G. s, 6)， 也 就 是 说 ,w 属 于 N(PW)。 口 

例 6.10 ”我 们 来 设计 一 个 PDA， 它 能 处 理 C 程 序 中 if 和 else 的 序列 ， 其 中 i 代表 if£，e 代 表 
else。 回 想 一 下 在 5.3.1 节 中 只 要 输入 串 的 任何 前 级 中 else 的 个 数 超过 了 eve 
证 的 个 数 就 会 出 问题 ， 原 因 是 我 们 无 法 给 每 个 else 都 匹配 一 个 它 前 面 的 i ZZZ 


1f。 因 此 ， 可 以 用 一 个 堆栈 符号 Z 来 记 数 已 经 看 到 的 :的 个 数 和 e 的 个 数 的 
差 。 这 个 简单 的 一 个 状态 PDA 在 图 6-5 中 的 转移 图 中 给 出 。 

只 要 看 到 一 个 ?， 就 再 压 入 一 个 Z， 只 要 看 到 一 个 < 就 弹出 一 个 Z。 因为 es enak 
开始 时 堆栈 中 有 一 个 Z， 因 此 实际 上 一 直 遵 竺 的 规律 是 ， 如 果 堆 栈 中 内 容 “方式 接受 iDelse 错 误 
是 Z， 那 么 已 经 看 到 的 i 比 e 多 n 一 1 个 。 特 别 是 ， 如 果 堆栈 是 空 的 ， 那 么 看 的 PDA 
到 的 e 比 ;多 一 个 ， 而 且 读 人 的 输入 对 于 第 一 次 正好 变 成 非法 的 。 这 也 就 是 这 个 PDA 以 空 酰 的 方式 
接受 的 串 。Pv 的 形式 化 描述 是 : 

Pu = ah {ives (2.0.4.2) 


Start 





其 中 56y 的 定义 是 ; 
1.6v(q,i, 刀 = {(q,2Z)}。 这 条 规则 是 说 在 看 到 一 个 i 时 就 压 入 一 个 Z。 
2, bv(q,€,2)= 4, 5)}。 这 条 规则 是 说 在 看 到 一 个 e 时 就 弹出 一 个 Z。 


ee 


i, Z/ZZ 
Start -@) BAXoZXK0 $ E Xg7E 


图 6-6 从 图 6-5 中 的 PDA 出 发 来 构造 一 个 以 终结 状态 方式 接受 的 PDA 


现在 ， 从 Pv 构造 一 个 PDA Pr， 使 得 它 能 以 终结 状态 方式 接受 同样 的 语言 。Pr 的 转移 图 在 图 
6-6 中 给 出 ”。 这 里 引入 一 个 新 的 初始 状态 p 和 一 个 新 的 接受 状态 r， 并 且 使 用 入 作为 栈 底 的 标记 。 
Pr 的 形式 定义 为 : 





Pr = ({p,q,7}, {i,e}, {Z, Xo} dr ,p, Xo, {r}) 
其 中 让 的 定义 是 : 


日 不 用 疑惑 这 里 为 什么 使 用 了 新 的 状态 p 和 r， 而 在 定理 6.9 的 构造 方法 中 使 用 pp 和 py。 状态 的 名 字 当 然 可 以 是 任 
意 的 。 
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1. ôr (p, €, Xo) = {(Q, ZXo)}。 这 条 规则 使 得 Pr 模拟 Ps 的 过 程 开 始 ， 其 中 使 用 各 作为 栈 底 的 
标记 。 

2.6r(4,i, 妃 ={(q,2Z)}。 这 条 规则 是 说 在 看 到 一 个 i 时 就 压 入 一 个 Z， 它 模拟 了 Pw。 

3.6F(q,e, 妈 ={(q, 引 }。 这 条 规则 是 说 在 看 到 一 个 e 时 就 弹出 一 个 Z， 它 也 模拟 了 Pis 

4, 6F(q, E, Xo) ={(r, 6)}。 也 就 是 说 ， 当 Pw 将 要 变 为 空 栈 时 PF 就 进入 接受 状态 。 口 


6.2.4 从 终结 状态 方式 到 空 栈 方式 


现在 来 考虑 相反 的 方向 ; 给 定 一 个 以 终结 状态 方式 接受 语言 L 的 PDA _ Pr， 构造 另 二 个 以 
空 栈 方式 接受 L 的 PDA Pv。 构造 的 过 程 比较 简单 ， 如 图 6-7 所 示 。 从 PF 的 每 一 个 接受 状态 ， 添 
加 一 个 e 转 移 到 一 个 新 的 状态 p。 当 处 在 状态 p 时 ，Pw 从 堆栈 中 弹出 符号 ， 同 时 不 消耗 任何 输 
入 。 这样， 只 要 Pr 在 消耗 了 输入 w 之 后 进入 了 接受 状态 ， 相 应 的 Py 就 会 在 消耗 了 w 之 后 清空 
它 的 堆栈 。 





图 6-7 Pw 模拟 Pr， 并 且 当 且 仅 当 Pr 进入 接受 状态 时 Pn 会 清空 它 的 堆栈 


为 了 避免 模拟 Pr 清空 了 它 的 堆栈 但 是 并 没有 进入 接受 状态 的 情况 ，Pw 一 定 也 要 使 用 一 个 栈 
底 的 标记 Xo。 这 个 标记 是 Py 的 初始 符号 ， 就 像 定理 6.9 中 的 构造 过 程 那样 ，P 必须 从 一 个 新 的 状 
态 po 开 始 ，po 的 惟一 作用 就 是 把 Pr 的 初始 符号 压 入 堆栈 然后 转移 到 P; 的 初始 状态 。 图 6-7 是 这 个 
构造 过 程 的 略图 ， 并 且 在 下 一 个 定理 中 会 给 出 形式 化 的 描述 。 


定理 6.11 设 对 于 PDA Pr = (QO, 2,0 ôr ,qo ,Zo, FIBA L= L(PP， 那 么 存在 一 个 PDA Py 
使 得 L = N(PW)。 
证 明 该 证 明 背 后 的 思想 在 图 6-7 中 表示 了 出 来 。 令 
Py = (QU {po,p}, £, TU {Xo},6y «po Xo) 
Herp dy HIE IE: 
1. ôv (Po, E, Xo) = {(qo, ZoXo)}。 从 把 Pr 的 初始 符号 压 入 栈 中 并 进入 Ps 的 初始 状态 开始 。 
2. 对 于 Q 中 的 所 有 的 状态 9、 三 中 的 输入 符号 a 或 者 a = e 以 及 IT 中 的 堆栈 符号 7Y，6v(q, a, V 
含 6r(q,a, 四 中 的 所 有 序 对 ， 也 就 是 说 ，Pn 模 拟 PF。 
3. 对 于 F 中 的 所 有 接受 状态 q 和 了 中 的 堆栈 符号 7 或 者 Y = Xo, Sv(q, e, VEP, 日。 根据 这 条 
规则 ， 只 要 Pr 接受 ，Py 就 可 以 开始 清空 它 的 堆栈 而 不 消耗 任何 输入 。 
4. 对 于 所 有 了 中 的 堆栈 符号 7 或 者 Y= 各 ，6w(p, £, Y) = {(p, se)}。 一 旦 进入 状态 p (RAMPE 
经 进入 接受 状态 时 才能 发 生 ) ，Pw 就 弹出 堆栈 中 的 每 个 符号 直到 堆栈 为 空 ， 同 时 不 再 消耗 
任何 输入 。 
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现在 必须 要 证 明 ; w 属 于 MPw 当 且 仅 当 w 属 于 区 PP)。 这 个 证 明 过 程 的 思想 和 定理 6.9 的 证 明 
很 相似 。“ 当 ”部 分 是 一 个 直接 的 模拟 ， 而 “ 仅 当 ”部 分 则 需要 验证 构造 的 PDA-PW 只 能 做 被 限 
制 得 很 “ 死 ”的 事情 。 

( 当 ) 假设 对 于 某 个 接受 状态 4 和 堆栈 符号 串 a 有 (go, w, Zo) K, (Qs £, 0)。 利 用 PF 的 任何 一 个 转 
移 同时 也 是 Px 的 一 个 转移 的 事实 ， 并 且 应 用 定理 6.5 允 许 我 们 保持 Xo 始终 处 在 堆栈 中 其 他 符号 的 
下 面 ， 可 以 得 到 (qo, w, ZoXo) by (q, € aXo)。 那 么 Px 可 以 进行 下 面 的 移动 序列 : 


(Po, w, Xo) Foy (Gor Ws ZoXo) Fy (4, £, ao) Ey (P. €, £) 


第 一 步 移动 是 根据 构造 Py 的 规则 (1) 得 出 的 ， 最 后 的 一 系列 移动 是 根据 规则 (3) 和 规则 (4) 得 出 的 。 
因此 Py 可 以 以 空 栈 方式 接受 w。 

( 仅 当 ) Pw 可 以 清空 它 的 堆栈 的 惟一 方式 是 进入 状态 p»， 因 为 Xo 始终 处 在 栈 底 并 且 Xo 不 属于 
任何 Pr 的 移动 的 堆栈 符号 。Pw 能 进入 状态 p 的 惟一 方式 是 它 模拟 的 Pr 进入 一 个 接受 状态 。Pw 的 
第 一 步 移动 一 定 是 规则 (1) 给 出 的 移动 。 因 此 ， 每 一 个 Py 的 接受 计算 一 定 是 下 面 的 样子 : 


(po, w, Xo) bay qo, W, ZoXo) Hey (qs €, AXo) By (P, E, €) 


其 中 4 是 Pr 的 一 个 接受 状态 。 

此 外 ， 在 ID (qo, w, ZoXo) 和 (gq, €, cxo) 之 间 ， 所 有 移动 都 是 Pr 的 移动 。 特 别 地 ， 在 到 达 ID (9， 
E, Xo)? 之 前 X 不 可 能 成 为 栈 顶 符号 。 因 此 可 以 得 出 结论 ; P: 中 会 发 生 同 样 的 计算 ; RRRA X, 
也 就 是 说 ，(go, w, Z) bi, (Qs s, 中 。 现 在 我 们 看 到 Pr 以 终止 状态 接受 w， 所 以 w 属 于 (Pn)。 a 


625 习题 


习题 6.2.1 ”设计 一 个 PDA 来 接受 下 列 语言 ， 你 可 以 使 用 以 终结 状态 方式 接受 或 者 以 空 栈 方 
式 接受 中 较 方便 的 方式 。 
*a) {0"1"ln>1}。 
b) 所 有 由 0 和 1 构成 的 使 得 任何 前 缀 中 1 的 个 数 都 不 比 0 的 个 数 多 的 串 的 集合 。 
C) 所 有 0 和 1 个 数 相 同 的 0 和 和 1 串 的 集合 。 
! 习题 6.2.2 设计 一 个 PDA 来 接受 下 列 语 言 。 
*a) {abict1i=j 或 j=. 注意 ， 这 个 语言 和 习题 5.1.1(b) 中 的 语言 不 同 。 
b) 所 有 0 的 个 数 是 1 的 个 数 两 倍 的 串 的 集合 。 
! 习题 6.2.3 设计 一 个 PDA 来 接受 下 列 语言 。 
*a) {abc li + j Rj Ak} : 
b) 所 有 不 是 ww 形式 的 a 和 b 的 串 的 集合 ， 也 就 是 所 有 不 是 一 个 串 重复 两 饥 的 串 的 集合 。 
站 习题 6.2.4 设 P 是 一 个 以 空 栈 方式 接受 语言 L 的 PDA， 即 L = N(P)， 并 且 假 设 e 不 属于 L。 描 述 
一 下 怎样 对 P 进 行 修改 使 得 它 能 够 以 空 栈 方式 接受 语言 LU{e}。 
习题 6.2.5 PDA P = ({qo, q1, q2, 43, f}, {a, b}, {Zo, A, B}, Ô, qo, Zo,{fD 具 有 下 列 定义 6 的 规 
则 ; 


O 虽然 9 可 以 是 e， 但 在 这 种 情况 下 Pr 会 在 清空 它 的 堆栈 的 同时 进入 接受 状态 
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(qo, a, Zo) = (q1, AAZo) &qo, b, Zo) = (q2; BZo) Ho, €, Zo) = (f, €) 
&qı, a, A) = (qı, AAA) qi, b: A) = (q1, £) qi, E, Zo) = (qo, Zo) 
qz, a, B) = (qs, £) qz, b, B) = (q2, BB) G2, €, Zo) = (qo, Zo) 
(qs, €, B) = (qz, £) (qs, £, Zo) = (qi, AZo) 


注意 ， 因 为 上 面 的 每 一 个 转移 都 只 有 一 个 移动 选择 ， 所 以 这 里 省 略 了 规则 中 的 花 括号 。 
* a) 给 出 一 个 验证 串 bab 属 于 L(P) 的 执行 轨迹 【ID 的 序列 )。 
b) 给 出 一 个 验证 串 abb 属 于 L(P) 的 执行 轨迹 。 
©) 给 出 当 P 从 输入 中 读 和 信 了 brat 后 堆栈 的 内 容 。 
1d) 非 形式 化 地 描述 L(P)。 
习题 6.2.6 考虑 习题 6.1.1 中 的 PDA P。 
a) 把 P 转 换 成 为 另外 一 个 PDA P,， 使 得 P, 能 够 以 空 栈 方 式 接受 P 以 终结 状态 方式 接受 的 语言 ， 
即 MPD) = L(P). 
b) 找 出 一 个 PDA Pa, (ELP) = NM(P)， 也 就 是 说 ，P; 能 够 以 终结 状态 方式 接受 P 以 空 栈 方 
式 接受 的 语言 。 
! 习题 6.2.7 WEH: 如 果 P 是 一 个 PDA， 那 么 存在 一 个 只 有 两 个 堆栈 符号 的 PDA Pa, WE 
LP) = LP)。 提 示 : 把 P 的 堆栈 字母 表 用 二 进 制 编码 。 
*! 习题 6.2.8 ”一 个 PDA 被 称 为 受 限 的 ， 如 果 它 的 任何 一 个 转移 都 只 能 让 它 的 堆栈 的 高 度 增 长 
至 多 一 个 符号 。 也 就 是 说 ， 对 于 任何 包含 (p, 的 规则 &9g, a, 刀 ， 它 一 定 有 1 y1<2。 试 证 明 ; 如 果 
P 是 一 个 PDA， 那 么 存在 一 个 受 限 的 PDA Ps 满足 LP) = L(P;)。 


6.3 PDA 和 CFG 的 等 价 性 


本 节 将 要 说 明 PDA 所 定义 的 语言 恰好 就 是 上 下 文 无 关 语 言 。 图 6-8 给 出 了 计划 进行 证 明 的 步 
最 。 最 终 的 目的 是 证 明 下 面 三 类 语言 : 

1. 上 下 文 无 关 语言 ， 即 CFG 所 定义 的 语言 。 

2. 被 某 个 PDA 以 终结 状态 方式 接受 的 语言 。 

3. 被 某 个 PDA 以 空 栈 方 式 接受 的 语言 。 
都 是 同样 的 语言 类 。 我 们 已 经 证 明了 (2) 和 (3) 是 相同 的 。 下 面 会 证 明 (1) 和 (3) 也 是 同样 的 ， 因 而 意 
味 着 这 三 者 的 等 价 性 。 


空 栈 方式 以 终结 状态 方式 
接受 的 PDA 接受 的 PDA 


图 6-8 三 种 定义 CFL 的 方式 的 等 价 性 的 证 明 过 程 的 组 织 


6.3.1 从 文法 到 PDA 


给 定 一 个 CFG G， 我 们 来 构造 一 个 模拟 G 的 最 左 推导 的 PDA。 任 何不 是 终结 符 串 的 左 句 型 都 
可 以 写成 xAa 的 形式 ， 其 中 4 是 最 左 变 元 ,x 是 它 左边 的 所 有 终结 符 ，a 是 由 所 有 A 右边 的 终结 符 
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和 变 元 构成 的 串 。 我 们 称 4c 为 这 个 左 句 型 的 是 。 如 果 这 个 左 句 型 只 包含 有 终结 符 ， 那 各 它 的 尾 
He. 

这 个 从 文法 来 构造 PDA 的 过 程 背 后 的 思想 是 : 用 PDA 来 模拟 该 文法 用 于 产生 一 个 给 定 的 终 
结 符 串 w 的 左 句 型 的 序列 。 每 个 句 型 x4Aa 的 尾 都 出 现在 堆栈 上 ， 并 且 A 在 顶部 。 这 时 候 ，x 通 过 下 
面 的 形式 来 “表示 ”: 我 们 已 经 从 输入 中 消耗 了 x， 并 且 同 时 把 w 中 除了 前 缀 x 剩 下 所 有 的 东西 留 
在 输入 中 。 也 就 是 说 : 如果 w = 闻 ， 那 么 > 将 仍 留 在 输入 中 。 

假设 PDA 处 在 ID (q, y, 4qj， 它 表示 左 句 型 zx4a。 接 着 猜测 扩展 4 的 产生 式 ， 比 如 4 一 8。 该 
PDA 的 移动 是 用 来 替换 栈 项 的 4， 进 入 ID (4,y, Ba)。 注 意 ， 这 个 PDA 只 有 一 个 状态 4。 

现在 (49,y, pa) 可 能 并 不 能 表示 下 一 个 左 句 型 ， 因 为 B 可 能 有 一 个 有 终结 符 的 前 级 。 事实 上 ， 
B 中 甚至 可 能 根本 没有 变 元 ， 而 且 a 可 能 有 一 个 有 终结 符 的 前 级 。 下 面 要 做 的 是 去 除 Ba 开 头 部 分 
的 终结 符 ， 暴露 出 栈 顶 的 下 一 个 变 元 。 此 时 无 论 去 掉 的 是 什么 终结 符 ， 它 们 都 需要 同 下 一 个 输 
入 符号 进行 比较 ， 从 而 确定 对 于 输入 串 w 的 最 左 推导 的 猜测 正确 与 否 。 如 果 不 正确 ， 那 么 这 个 
PDA 的 分 支 就 死亡 。 

如 果 用 这 个 方式 猜测 w 的 最 左 推导 成 功 ， 那 么 最 终 到 达 w 的 左 句 型 。 这 时 所 有 堆栈 上 的 符号 
或 者 被 扩展 (如 果 它们 是 变 元 ) 或 者 被 用 来 和 输入 进行 匹配 (如 果 它 们 是 终结 符 )。 此 时 堆栈 为 
空 ， 因 此 以 空 栈 方式 接受 。 

以 上 的 非 形 式 化 的 构造 过 程 可 以 精确 地 表示 如 下 。 设 G=(V, T, Q, 5) 是 一 个 CFG。 构 造 以 空 
栈 方式 接受 XGO) 的 PDA PP 如下， 

P =({q},T, VUT, ô, q, S) 
其 中 转移 函数 6 的 定义 是 ， 
1. 对 于 每 一 个 变 元 4， 
5q,s4)={(9, 月 14 一 有 是 G 的 一 个 产生 式 } 
2. 对 于 每 一 个 终结 符 4g， Sq, a, a) = {(q, 5)}。 


例 6.12 我 们 来 把 图 5-2 中 的 表达 式 文 法 转换 成 一 个 PDA。 回 想 一 下 这 个 文法 是 : 
I>a\b\ lal Ib1 011 
E-/|E* E\E+E\(B) 
这 个 PDA 的 终结 符 的 集合 是 {a,b,0, 1,(,),+,*}。 这 8 个 符号 再 加 上 符号 /和 E 就 构成 了 堆栈 字母 表 。 
这 个 PDA 的 转移 函数 是 : 
a) &q, £, I) = {(q, a), (q, b), (q, 1a), (q, 1b), (q, 10), (q, [1)}. 
b) &q, £, E) = {(4, D), (q, E + E), (q, E * E), (q, (E))}« > 
c) ôlq, a, a) = {(q, €)}; dq,b,b)= {(q, £)}; Hg, 0, 0) = {(q, £}; HG, 1, 1) = {(q, ©}; dq,(,0= 
{(q, ©; Xa. ).)) = {(q, 0! Xa, +, +) = {(q, £); 6G, +, *) = {9,9}. 
注意 ，(a 和 (b) 来 自 规则 (1)， 而 (c) 中 的 8 个 转移 来 自 规则 (2)。 除 了 (a) 到 (c) 定 义 了 的 以 外 ，6 
为 空 。 a 


定理 6.13 如 果 PDA P 是 用 上 面 的 方式 从 CFG G 构 造 出 来 的 ， 那 么 N(P) = L(G). 
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证 明 我 们 将 要 证 明 w 属 于 N(P) 当 且 仅 当 w 属 于 L(G)。 
( 当 ) 假定 w 属 于 L(G)， 那 么 w 有 最 左 推导 


Sa yp 


通过 对 i 进行 归纳 来 证 明 (4,w, 5) E (9, ya， 其 中 和 ww 是 左 句 型 的 一 种 表示 。 也 就 是 说 ， 设 w 
为 hy 的 尾 ，%=xa， 则 yw 是 满足 zy = w 的 串 〈 也 就 是 说 ， 它 是 从 输入 中 去 掉 x 后 剩 下 的 部 分 )。 

基础 : 对 于 i= 1,% =5， 因 此 wi =Es， 六 = w。 因 为 考虑 0 步 时 有 (g, w, 5) F(a, w, 5)， 所 以 基础 
得 证 。 

BA: 继续 考虑 第 二 个 以 及 后 续 的 其 他 句 型 。 假 设 

(gq,w,5) F (q, yi a), ` 

证 明 (q,w;5) 上 (qsyir1s +)。 因 为 是 一 个 尾 ， 所 以 它 以 一 个 变 元 4 开头 。 此 外 ， 在 % =p 
步 推导 中 需要 用 4 的 一 个 产生 式 的 体 来 替换 4， 设 为 6。 构 造 P 的 规则 (1) 使 我 们 能 够 用 6 来 赫 换 处 
在 栈 顶 的 4， 而 规则 (2) 使 我 们 能 够 用 输入 串 来 和 栈 顶 的 任何 终结 符 串 进行 匹配 。 因 此 最 后 的 结 
局 是 我 们 到 达 了 ID (q, yie m1)， 它 表示 下 一 个 左 句 型 %,1。 

为 了 完成 整个 证 明 过 程 ， 我 们 注意 到 aw =e, By (Mw) 的 尾 为 空 。 因此 可 以 得 到 (q, w, 
多 上 (q,e, 日， 因而 证 明了 P 以 空 栈 方式 接受 w。 

( 仅 当 ) 我 们 需要 证 明 一 些 更 一 般 的 结论 : 如 果 P 执 行 了 一 系列 的 移动 ， 而 这 些 移动 的 “H 
效应 ”就 是 从 栈 项 弹出 变 元 4， 而 栈 中 处 于 4 下 面 的 符号 并 没有 使 用 ， 那么 在 G 中 4 能 够 推导 出 在 
这 个 过 程 中 从 输入 中 消耗 的 串 。 确 切 地 说 就 是 : 


+ BALA, x.A) Gae, MWE Aae 


它 的 证 明 是 通过 对 P 所 做 的 移动 的 步 数 进行 归纳 来 完成 的 。 
基础 : 一步 移动 的 情况 。 惟 一 的 可 能 是 4 一 2 是 G 的 一 个 产生 式 ， 并 且 这 个 产生 式 被 PDA PHE 
(1) 型 的 规则 中 使 用 。 在 这 种 情况 下 有 x = e， 因 而 得 知 A = 6。 
归纳 : 假定 P 的 移动 共有 n 步 ， 其 中 n > 1。 那 么 它 的 第 
一 步 移动 一 定 是 (1) 型 的 ， 也 就 是 在 栈 顶 用 A 的 一 个 产生 式 
的 体 来 替换 4。 原 因 是 (2) 型 的 规则 只 能 用 在 栈 顶 为 终结 符 
的 情况 下 。 假 设 使 用 的 产生 式 是 4 一 矶 Yo Yi, HHY, ELA 
是 终结 符 或 者 变 元 。 
P 的 后 面 的 n 一 1 步 移动 必须 从 输入 中 消耗 z:， 同 时 它们 B 
的 “ 净 效 应 ”是 分 别 从 栈 中 弹出 片 ， 瑟 等， 二 次 一 个 。 我 们 
可 以 把 x 分 解 为 xix2…xe， 其 中 是 在 从 堆栈 中 弹出 的 过 程 4 
(也 就 是 直到 首次 堆栈 中 只 剩 k 一 1 个 符号 ) 中 消耗 的 输入 ， 
矿 是 在 从 堆栈 中 弹出 的 过 程 中 消耗 的 输入 ， 依 此 类 推 。 £ 而 
图 6-9 给 出 了 输入 x 被 分 解 的 形式 ， 以 及 相应 的 堆栈 的 x h 5 
情况 。 其 中 ， 假 定 B 为 BaC， 因 此 x 被 分 为 三 部 分 xixzx3， 其 图 6-9 消耗 :并 且 从 堆栈 中 弹出 
中 = a。 注 意 ;更 一 般 的 情况 ， 如 果 包 是 一 个 终结 符 ， 那 BaCHIPDAP 
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么 w 一 定 就 是 这 个 终结 符 。 

可 以 把 结论 形式 化 地 记 作 (q, xis ixe Y) EQ Xie xe, 8), BP BPARVISL, 25°, ke 此 外， 
这 些 序列 中 的 每 一 个 都 不 能 超过 n 一 1 步 ， 因 此 如 果 ¥ 是 一 个 变 元 就 可 以 应 用 归纳 假设 ， 也 就 是 
说 ， 我 们 可 以 得 到 六 地。 

如 果 是 一 个 终结 符 ， 那 么 一 定 只 有 一 步 移动 ， 并 且 这 步 移动 就 是 用 x 的 一 个 符号 和 六 进行 
匹配 ， 而 且 它 们 一 定 相同 。 因 此 仍然 可 以 得 到 六 二 x ， 这 次 只 使 用 了 0 步 。 现 在 ， 得 到 了 如 下 推 
导 : 


AR YY Yao a YoY oem aay a, 


BD ASx. 
为 了 完成 整个 证 明 过 程 ， 还 需要 令 4 = S，x = w。 因 为 已 知 % 属 于 NM(P)， 所 以 可 以 得 到 (q, w, 
5) 上 (qe, 6)。 再 根据 刚才 归纳 证 明 的 结论 可 知 5 二 w ， 即 w 属 于 LG)。 o 


6.3.2 从 PDA 到 文法 


现在 进行 等 价 性 证 明 的 另 一 部 分 : 对 于 任意 的 PDA P， 可 以 找到 一 个 CFG G， 使 得 G 的 语言 
恰好 就 是 P 以 空 栈 方式 接受 的 语言 。 这 个 证 明 背 后 的 思想 是 ;发 现 了 PDA 对 一 个 给 定 的 输入 的 处 
理 过 程 中 的 基本 事件 是 仅仅 把 一 个 符号 从 堆栈 中 弹出 ， 同 时 消耗 某 个 输入 。 一 个 PDA 可 能 在 它 
从 堆栈 中 弹出 符号 的 同时 改变 状态 ， 因 此 还 需要 注意 它 的 堆栈 最 终 弹 出 一 级 时 它 所 进入 的 状态 。 

如 图 6-10 所 示 ， 从 堆栈 中 强 出 一 系列 的 符号 蕊 ,25，…， 
X。 当 弹出 7 时 读 入 了 某 个 输入 xt。 应 该 注意 的 是 这 里 的 
“弹出 ”实际 上 是 许多 移动 的 净 效 应 。 例 如 ， 第 一 步 移动 也 了 
许 会 把 蕊 变 为 其 他 的 符号 Z， 接 下 来 的 移动 也 许 会 用 UV 来 替 
换 Z， 后 面 的 一 些 移动 的 效应 是 弹出 了 U， 再 后 面 的 一 些 动 Y 
作 的 效应 是 弹出 了 V。 所 有 这 些 移动 的 净 效应 是 把 用 空 来 
赫 换 ， 即 把 它 弹出 ， 而 在 这 个 过 程 中 所 消耗 的 输入 就 是 xi。 

图 6-10 中 也 给 出 了 状态 的 净 改 变 。 假 定 该 PDA 从 状态 po 
出 发 ， 同 时 栈 顶 为 六 。 经 过 了 所 有 整体 净 效应 为 弹出 的。 
移动 之 后 ， 该 PDA 处 在 状态 pi。 接着 它 继续 ( 净 ) MY, 
同时 读 取 输入 串 z>， 同 时 可 能 在 经 过 很 多 步 移动 直到 最 终 Pca = 
弹出 六 的 动作 被 全 部 完成 的 时 候 处 在 状态 p:。 这 样 的 计算 。 图 6.10 一 个 PDA 做 一 示 列 的 移动 。 
会 不 断 继续 下 去 ， 直 到 堆栈 中 的 每 一 个 符号 都 被 去 掉 为 止 。 而 这 些 移动 的 “ 净 效 应 ”就 是 

构造 等 价 的 文法 需要 使 用 一 些 变 元 ， 每 一 个 变 元 代表 从 栈 中 弹出 一 个 符号 
一 个 “事件 "， 这 些 事件 包括 : 

1. 从 栈 中 净 弹出 某 个 符号 X， 以 及 

2. 状 态 的 改变 ， 从 开始 时 处 于 的 状态 p 到 最 后 当 堆栈 中 的 X 完 全 被 所 替代 时 所 处 的 状态 gq。 

可 以 用 组 合 符号 [pXg] 来 表示 这 样 的 变 元 。 记 住 这 个 字符 的 序列 是 我 们 描述 一 个 变 元 的 方 
式 ; 它 不 是 五 个 文法 符号 。 形 式 化 的 构造 过 程 由 下 面 的 定理 给 出 。 


定理 6.14 itP=(Q, E,T ô, qo , 20) 是 一 个 PDA。 则 存在 一 个 上 下 文 无 关 文 法 G 满 足 L(G) = 





一 一 ~ 




















247| 
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NP). 
证 明 我 们 将 要 构造 G = (V, 2,R;5)， 其 中 变 元 V 的 集合 包括 : 
1. 特 殊 的 符号 S， 它 是 初始 符号 ， 以 及 
2. 所 有 [pXq] 形 式 的 符号 ， 其 中 p 和 g 是 C 中 的 状态 ，X 是 了 中 的 堆栈 符号 。 
G 的 产生 式 如 下 : 
引 对 于 每 一 个 状态 p»，G 有 产生 式 5 一 [qoZap]。 直 觉 告诉 我 们 像 [4oZop] 这 样 的 符号 的 作用 是 产 
生 所 有 具有 如 下 性 质 的 串 w， 它 能 够 导致 P 从 堆栈 中 弹出 Z， 同 时 从 状态 qo 转 到 状态 p»， 也 
就 是 说 ， 满 足 (qo, w, Zo) 上 (p, e, a)。 假 如 这 样 的 话 ， 那 双 这 些 产生 式 是 说 ， 初 始 符号 5 生成 
所 有 导致 P 在 初始 ID 出 发 之 后 进入 空 栈 状态 的 串 w。 
b) åq, a, XA FFA, Yı YoY), Erh: 
1.4 是 > 中 的 一 个 符号 ,或 者 a =e, 
2.k 可 以 是 任何 数 ， 包 括 0， 此 时 该 序 对 为 (7, ©). 
那么 对 于 所 有 状态 的 序列 mm, …, rt:，G 都 有 产生 式 
[Xr ]alrYird) [ri Yara] [re Yar] 
这 个 产生 式 是 说 : 弹出 X 并 且 从 状态 q 转 到 状态 r 的 一 种 方法 是 读 入 a (也 可 能 为 e) ， 
接着 通过 消耗 某 个 输入 来 从 堆栈 中 弹出 ， 同 时 从 状态 r 转 到 状态 mit 然后 读 入 另 一 个 输 
入 来 从 堆栈 中 弹出 产 ， 同 时 从 状态 n 转 到 状态 r， 依 此 类 推 。 
现在 应 该 证 明 对 于 变 元 [qXp] 的 非 形式 化 解释 的 正确 性 了 : 


* [aXp]->w HER, w, 9 Fp, e, 6). 


( 当 ) 假设 有 (4, w, X) F(p, & 6)。 我 们 将 要 通过 对 PDA 所 做 移动 的 步 数 使 用 归纳 法 来 证 明 
[gxXp]=>w。 

基础 : 考虑 只 有 一 步 移动 的 情况 ， 这 时 (p, 8) 一 定 属于 6(g, w,X)， 并 且 w 是 一 个 单个 的 符号 或 
者 e。 根 据 G 的 构造 过 程 可 知 [gqXp] 一 w 是 一 个 产生 式 ， 因 此 有 [{gXp] 二 w。 

归纳 : 假设 序列 (9,w, X) Fp, e a) 共 有 n 步 ,其 中 n>1， 那 么 第 一 步 移动 一 定 是 如 下 形式 的 : 

(q, w, X) F (rox, VY) F(p, €, £) 

其 中 w= ax， 并 且 a 是 > 中 的 一 个 符号 或 者 e。 由 此 可 知 序 对 (ro, 妃 友 … 切 一 定 属于 5a, a, 各。 更 进 
一 步 来 说 ， 根 据 G 的 构造 过 程 可 知 ， 有 一 个 产生 式 是 [gXr] 一 alroYin] [Yar] (reed, JEP: 

Ln=p, 并 且 

2. ri, tay +s Tel 是 Q 中 的 任何 状态 。 

特别 地 ， 就 像 图 6-10 中 所 示 的 那样 ， 我 们 可 以 发 现 ， Ya, Yo, …, 二 中 的 每 个 符号 依次 被 从 堆 
栈 中 弹 了 出 来 ， 同 时 对 于 i = 1, 2, …,k 一 1， 可 以 令 ri 为 该 PDA 刚 弹出 时 所 处 在 的 状态 。 令 x = 
wiwa we， 其 中 wi 是 从 堆栈 中 弹出 时 消耗 的 输入 串 可 (re wo Yi) Es e 9。 

由 于 这 些 移动 序列 都 不 到 n 步 ， 因 此 可 以 对 它们 使 用 归纳 假设 ， 从 而 得 出 结论 [Yin] wa 
我 们 可 以 把 这 些 推导 与 第 一 个 产生 式 合 起 来 ， 最 终 得 出 结论 : 
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[aXn 1= alr, Yn In Es] Pn] 
aw ln Yn lan LAA 


CAA Yn] 


其 中 n=p。 

( 仅 当 ) 这 部 分 的 证 明 需 要 对 推导 的 步 数 进行 归纳 。 

基础 :考虑 只 有 一 步 移动 的 情况 ， 此 时 [4Xp] 一 w 一 定 是 一 个 产生 式 。 存 在 该 产生 式 的 惟一 
的 方法 就 是 存在 一 个 P 的 转移 能 够 在 弹出 X 的 同时 从 状态 q 转 到 状态 x。 也 就 是 说 ，(p, 8) 一 定 属于 
6(q,a, 和 )， 并 上 且 a = w。 但 是 ， 这 时 就 有 (g, w, X) HP, E, 8). 

归纳 : 假设 [gxXp] 二 w 共 有 n 步 ， 其 中 n> 1。 具 体 考 虑 第 一 个 句 型 ， 它 一 定 是 如 下 形式 的 ; 


[gXr1= alnYn ln nl [rian lw 


其 中 m=p。 这 个 产生 式 一 定 来 源 于 (ro, YY Ye) FOG, a, XX BER, 

可 以 把 w 分 解 为 w = awww2…ws， 使 得 对 于 所 有 的 i= 1,2,…,k， 有 [7 ,Yn] 过 w，。 由 归纳 假设 
可 知 ， 对 于 所 有 的 i， 有 

(i-is Wa Yi) F (ri €, £) 
如 果 用 定理 6.5 来 把 w, 之 后 正确 的 串 作为 输入 ， 同 时 把 之 后 的 符号 放 在 堆栈 上 ， 可 知 : 
(riety Wi Wins ** Way YiYier Ye ) E (fi, Wier we Yint Ya) 
如 果 把 所 有 的 这 些 序列 都 合 起 来 ， 可 以 得 到 : 
(q, awi wa ewe, X) H (ro wi wa We, Fi) E 
(ri, W2 W3 wes Y2Ys Yi) F (r2, wa ewe, Yar Yd) F- F (re, E, €) 

因为 r=p， 所 以 得 证 (q, w, X) Fp, £, 8). 

完成 这 一 证 明 如 下 Sw 当 且 仅 当 对 某 个 p 有 [4,2,p] 二 w ， 而 这 一 点 由 初始 符号 5 的 规则 
被 构造 的 方式 可 知 。 刚 才 已 经 证 明了 [9,Z,p]ew 当 且 仅 当 (9; w, Zo) F(p, e 5) 成 立 ， 也 就 是 说 ， 
当 且 仅 当 P 以 空 栈 方式 接受 x*。 因 此 ，L(G)= N(P)。 口 


例 6.15 把 例 6.10 中 的 PDA Py = ({q}, {i, e}, {Z}, Ov ,9 , Z) 转 化 为 一 个 文法 。 回 想 一 下 ，Pw 
接受 所 有 的 第 一 次 出 现 e (else) 无 法 和 它 前 面 的 ; (if) 匹配 的 非法 串 。 由 于 Pr 只 有 一 个 状态 和 
一 个 堆栈 符号 ， 因 此 构造 过 程 非常 简单 。 下 面 是 文法 G 中 仅 有 的 两 个 变 元 : 

a) 初始 符号 5， 每 个 用 定理 6.14 中 的 方法 构造 的 文法 都 有 它 。 

b) [9Z4]， 它 是 惟一 由 Pw 的 堆栈 符号 和 状态 组 成 的 三 元 组 。 
文法 G 的 产生 式 为 : 

1.5 的 产生 式 只 有 5 一 [9Z4q]。 然 而 ， 如 果 该 PDA 有 个 状态 ， 那 么 就 会 有 n 个 这 种 类 型 的 产生 

式 ， 因 为 最 后 的 状态 可 能 为 这 n 个 状态 之 一 。 不 过 第 一 个 状态 必须 是 初始 状态 ， 堆 栈 符 号 
必须 是 初始 符号 ， 就 像 上 面 的 产生 式 那 样 。 
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2. 由 于 6v (4, i, DEEN, 22)， 因 此 我 们 得 到 了 产生 式 [gZ4] 一 i[gZg][92q]。 同 样 ， 如 果 有 n 个 
状态 ， 那 么 这 条 规则 将 会 产生 下 个 产生 式 ， 原 因 是 体 中 间 的 两 个 状态 可 以 是 任何 一 个 状 
态 p， 而 头 和 体 的 最 后 状态 也 可 以 是 任何 一 个 状态 。 也 就 是 说 ， 如 果 p 和 r 是 PDA 的 任何 两 
个 状态 ， 那么 将 会 生成 产生 式 : [g2p] 一 ifgzr][r2p]。 

3. 由 于 6v(q,e, 妃 包含 (q, e)， 因 此 我 们 得 到 了 产生 式 

[qZq\~e 
注意 ， 在 这 种 情况 下 ， 用 来 替换 Z 的 堆栈 符号 列表 为 空 ， 因 此 体 中 惟一 的 符号 就 是 导致 这 


个 移动 的 输入 符号 。 
为 了 方便 起 见 ， 可 以 用 一 个 简单 些 的 符号 (比如 4) 来 代替 三 元 组 [9Zg]。 如 果 这 样 做 ， 那 


么 完整 的 文法 所 包含 的 产生 式 为 : 
S>A 
A>iAA le 
事实 上 ， 如 果 能 够 注意 到 4 和 5 实际 上 推导 出 了 相同 的 串 ， 那 么 我 们 就 可 以 把 它们 看 作 同 一 
个 符号 ， 进 而 整个 文法 可 以 写作 : 


G=({S}, {i, e}, {SSS l e}, S) o 
63.3 习题 
* 习题 6.3.1 把 文法 
5—0S11A4 
4 一 1401S1e 
转换 成 以 空 栈 方式 接受 同样 语言 的 PDA。 
习题 6.3.2 把 文法 
S—aAA 
Aaslbsla 


转换 成 以 空 栈 方式 接受 同样 语言 的 PDA。 
* 习题 6.3.3 把 PDA P = ({p, q}, {0, 1}, {X, Zo},6,q,26) 转 化 为 一 个 CFG， 其 中 6 为; 

1. 6(q, 1, Zo) = {(q, X20)}。 

2. &(q, 1, X) = {(q, XX)}. 

3. q,0,X) = {(p,X)}. 

4. &q, £, X) ={(q, 6}. 

5. &p, 1, X) = {(p, 8}. 

6. Kp, 0, Zo) = {(q, Zo)} e 

习题 6.3.4 把 习题 6.1.1 中 的 PDA 转 换 为 一 个 上 下 文 无 关 文法 。 

习题 6.3.5 下面 是 一 些 上 下 文 无 关 语言 。 对 于 其 中 的 每 一 个 文法 ， 设 计 一 个 以 空 栈 方式 接 
受 同样 语言 的 PDA。 如 果 需 要 的 话 ， 你 可 以 首先 给 这 些 语言 构造 相应 的 文法 ， 然 后 再 把 它们 转 
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化 为 PDA。 
a) {arbre | n>0, m>0}。 
b) {aibit i= 2j RE j= 2K}. 
c) {0"1" In<m<2n}, 
*! 习题 6.3.6 证 明 如 果 P 是 一 个 PDA， 那 么 存在 只 有 一 个 状态 的 PDA 已 ， 满 足 N(PD) = N(P)。 
1 习题 6.3.7 假设 有 一 个 PDA， 它 有 s 个 状态 、! 个 堆栈 符号 ,并且 它 的 所 有 规则 中 替换 堆栈 中 
的 串 的 长 度 都 不 超过 x。 当 使 用 6.3.2 节 中 的 方法 来 构造 和 这 个 PDA 相 应 的 CFG 时 ， 试 给 出 这 个 
CEFG 中 变 元 数目 的 紧 上 界 。 


6.4 确定 型 PDA 


虽然 根据 定义 PDA 可 以 是 非 确定 的 ， 但 是 在 限制 为 确定 型 的 情况 下 也 很 有 意义 。 特 别 地 ， 
语法 分 析 器 通常 都 是 确定 型 的 PDA， 因 此 对 于 深入 研究 哪些 结构 比较 适合 用 在 编程 语言 中 来 说 ， 
这 些 自动 机 所 接受 的 语言 类 是 很 有 意思 的 。 在 本 节 中 ， 将 会 定义 确定 型 下 推 自动 机 并且 将 会 
分 别 研 究 它们 能 做 和 不 能 做 的 事 。 


6.4.1 确定 型 PDA 的 定义 


直觉 上 ， 如 果 在 任何 情况 下 都 不 需要 移动 的 选择 ， 则 一 个 PDA 是 确定 型 的 。 有 两 种 类 型 的 
选择 。 如 果 6(q, a, 包含 多 于 一 个 的 序 对 ， 那 么 当然 这 个 PDA 肯 定 就 是 非 确定 型 的 ， 原 因 是 当 
决定 下 一 步 移动 时 需要 在 这 些 序 对 中 选择 一 个 ， 然 而 ， 即 使 0(q, a, 六 总 是 单个 元 素 的 ， 我 们 仍 
然 有 需要 作 选 择 的 情况 ， 比 如 是 使 用 一 个 真实 的 输入 符号 还 是 执行 一 个 上 的 移动 。 因 此 ， 我 们 
定义 一 个 PDA P = (Q, 2,1, 5, qo, Zo, 下) 为 确定 型 的 ( 称 为 确定 型 PDA 或 DPDA) 当 且 仅 当下 列 条 
件 被 满足 : 

1. 对 于 所 有 的 Q 中 的 状态 9、 中 的 输入 符号 a 或 者 a = e 以 及 I 中 的 堆栈 符号 X%，6(q, a, YB 

多 有 一 个 成 员 。 
2. 如 果 对 于 中 的 某 些 输入 符号 :有 6(9, a, DES, BZA OCG, ,加 一 定 为 空 。 


例 6.16 ”看 上 去 例 6.2 中 的 语言 ww 是 一 个 没有 DPDA 的 CFL。 然而， 通过 在 中 间 放 置 一 个 
“中 间 标 记 ”c， 就 可 以 用 一 个 DPDA 来 识别 这 个 语言 。 也 就 是 说 ， 我 们 可 以 用 一 个 确定 型 PDA 来 
识别 语言 Pov = {wewr1w 属 于 (0 + DD*}。 

该 DPDA 的 策略 是 用 堆栈 来 保存 0 和 1， 直 到 它 “ 看 到 ”中 间 标记 c。 接 着 它 转 到 另 一 个 状态 ， 
在 这 个 状态 下 它 用 输入 符号 来 和 栈 顶 符号 进行 匹配 ， 如 果 它 们 匹配 就 从 栈 顶 弹出 该 符号 ,如果 
一 旦 不 匹配 ， 那 么 它 就 拒绝 它 的 输入 串 ， 它 的 输入 串 不 是 wew* 形式 的 。 如 果 它 成 功 地 弹出 堆栈 
中 符号 一 直到 初始 符号 ， 也 就 是 栈 底 标记 ,那么 它 就 接受 它 的 输入 串 。 

这 个 思想 和 在 图 6-2 中 看 到 的 PDA 很 类 似 ,但 是 那个 PDA 不 是 确定 型 的 ， 原 因 是 在 状态 po 时 
它 总 是 有 一 种 选择 : 把 下 一 个 输入 符号 压 和 堆栈， 还 是 做 一 个 转移 来 转 到 状态 qi 也 就 是 说 ， 
它 不 得 不 猜测 自己 什么 时 候 到 达 中 间 。Lwow 的 DPDA 在 图 6-11 中 以 转移 图 的 方式 给 出 。 
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图 6-11 一 个 接受 Lwew 的 确定 型 PDA 


这 个 PDA 显 然 是 确定 型 的 。 在 同样 的 状态 下 ， 使 用 相同 的 输入 和 堆栈 符号 ， 它 从 不 需要 做 
移动 选择 。 而 且 对 于 使 用 实际 的 输入 符号 还 是 e 的 选择 来 说 ， 它 所 做 的 惟一 转移 是 当 栈 顶 为 2 时 
它 从 状态 9, 转 到 4:。 然 而 ， 在 状态 9 时 ， 当 栈 项 为 Z 时 并 没有 其 他 可 选 的 移动 。 o 


6.4.2 正则 语言 与 确定 型 PDA 


DPDA 接 受 的 语言 类 处 在 正则 语言 和 CFL 之 间 。 我 们 首先 证 明 DPDA 语 言 包括 所 有 的 正则 语 
言 。 


-~-oo-o 





定理 6.17 如 果 L 是 正则 语言 ， 则 对 于 某 个 DPDA PAL = LP). 

证 明 实质 上 ，DPDA 可 以 模拟 确定 型 有 穷 自动 机 。 这 样 的 PDA 在 它 的 堆栈 上 保存 一 个 堆栈 
符号 Zu， 其 原因 是 PDA 不 得 不 有 一 个 堆栈 ， 但 是 实际 上 该 PDA 忽 略 了 它 的 堆栈 而 仅 使 用 它 的 状 
态 。 形 式 化 地 设 4 = (Q, F, ôn, go, 门 是 一 个 DEFA。 构 造 DPDA 

P=(Q, E, {Zo}, ôr, qo, Zo, F) 
的 方法 是 : 对 于 所 有 @ 中 满足 ss(g,a) =P 的 状态 p 和 4， 定义 iz(q,a,ZDo) = {(p,20)}。 

我 们 可 以 断言 (go, w, Zo) K (p, €, Zo) 当 且 仅 当 6,(q,,w) = p 。 也 就 是 说 ， P 使 用 它 的 状态 来 模 
拟 4。 两 个 方向 的 证 明 都 很 容易 通过 对 wl 进行 归纳 来 完成 ， 我 们 将 其 留 给 读者 。 由 于 A 和 P 都 通 
过 进入 F 中 的 状态 来 接受 ， 因 此 可 以 得 出 它们 的 语言 是 相同 的 。 口 


如 果 想 让 DPDA 以 空 栈 方式 接受 ， 那 么 将 会 发 现 我 们 的 语言 识别 能 力 是 非常 受 限 的 。 称 一 个 
语言 上 有 前 组 性 质 是 指 不 存在 中 的 两 个 不 同 的 串 x 和 y 使 得 * 是 y 的 前 缀 。 


例 6.18 ” 例 6.16 中 的 语言 Ze 就 具有 前 组 性 质 。 也 就 是 说 ， 不 可 能 存在 这 样 的 两 个 串 ww 
和 xex* 使 得 其 中 的 一 个 是 另 一 个 的 前 级， 除非 二 者 是 相同 的 串 。 为 了 说 明 为 什么 ， 假 设 wewr 是 
xcx* 的 前 级 ， 并 且 w 关 x。 那 么 w 一 定 比 * 短 。 因此， 考虑 wew* 中 c 所 处 在 的 位 置 ， 在 text 中 该 位 置 
上 的 符号 一 定 是 0 或 1， 这 个 位 置 在 第 一 个 r 上 。 这 一 点 和 wcws 是 xczx 的 前 缀 的 假设 相 矛 盾 。 

另 一 方面 ， 存 在 很 简单 的 不 满足 前 级 性 质 的 语言 。 考 虑 {0}*， 即 所 有 只 包含 0 的 串 的 集合 。 
很 显然 ， 存 在 这 个 语言 中 的 两 个 串 使 得 其 中 的 二 个 是 另 一 个 的 前 绥 ， 因 此 该 语言 没有 前 缀 性质。 
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事实 上 ， 对 于 该 语言 中 的 任何 两 个 串 ， 其 中 的 一 个 都 是 另 一 个 的 前 缀 ， 虽 然 这 个 条 件 比 我 们 需 
要 建立 的 前 级 性 质 所 不 成 立 的 条 件 要 强 。 口 


TER, LIAO} 是 一 个 正则 语言 。 因 此 ， 甚 至 连任 何 正则 语言 都 是 某 个 DPDA P 的 N(P) 
都 不 成 立 。 我 们 把 下 面 的 关系 留 作 练习 : 


定理 6.19 语言 /是 某 个 DPDA P 的 N(P) 当 且 仅 当 L 有 前 组 性 质 且 是 某 个 DPDA PHILP). O 
6.4.3 ”DPDA 与 上 下 文 无 关 语 言 


我 们 已 经 看 到 DPDA 可 以 接受 不 是 正则 的 语言 ， 例 如 Lwow。 要 证 明 该 语言 不 是 正则 的 ， 只 需 
要 反 过 来 假设 它 是 ， 然 后 使 用 泵 引 理 即 可 。 如 果 n" 是 泵 引 理 中 的 常数 ， 那 么 考虑 圳 w = 00, e 
属于 Lvewr。 然 而 ， 当 我 们 “ 泵 出 ”该 串 的 时 候 ， 它 的 第 一 组 0 的 长 度 一 定 会 改变 ， 因 此 在 Low 中 
得 到 的 串 的 “中 心 ”标记 并 不 在 中 心 。 因 为 这 些 串 并 不 属于 到 sx; 所 以 得 到 了 矛盾 ， 也 就 得 出 
结论 ，Lwew 不 是 正则 的 。 

另 一 方面 ， 也 有 CFEL (例如 Lwr) 不 是 任何 DPDA P 的 L(P)。 形式 化 的 证 明 比 较 复杂 ， 但 是 
直观 上 是 很 显然 的 。 如 果 P 是 一 个 接受 Lwwr 的 DPDA， 那 么 给 定 一 个 0 的 序列 ，P 一 定 要 把 它们 存 
在 堆栈 上 ,或 者 做 一 些 等 价 的 事情 来 记 住 这 些 0 的 数目 。 例 如 ; 它 可 以 每 看 见 两 个 0 就 在 堆栈 上 
存 下 一 个 xX， 并且 使 用 它 的 状态 来 记 住 当前 的 数目 是 奇数 还 是 偶数 。 

假设 P 看 见 n 个 0 然后 看 到 了 110"， 那 么 它 必须 要 验证 11 后 面 确实 有 n 个 0， 然 而 要 做 到 这 件 事 
情 它 一 定 要 从 它 的 堆栈 上 弹出 前 面 存储 的 东西 。8。 至 此 ，P 已 经 见 到 了 0"110"， 如 果 接 下 来 它 再 
看 到 同样 的 一 个 串 ， 它 必须 接受 ， 因 为 整个 完整 的 输入 串 是 wws 形 式 的 ， 其 中 w = O"110"。 但 是 ， 
如 果 它 看 到 的 串 是 0"110"， 而 且 m 夫 nm， 那么 P 一 定 不 接受 。 但 是 由 于 它 的 栈 已 经 是 空 的 ， 因 此 它 
无 法 记 住 整数 n 是 多 少 ， 因 此 就 无 法 正确 地 识别 ww。 我 们 的 结论 是 : 


* DPDA 以 终结 状态 方式 接受 的 语言 真 包含 正则 语言 ， 但 真 包含 于 CFL。 
6.4.4 DPDA 与 歧义 文法 

本 节 研 究 DPDA 的 另 一 个 性 质 ， 它 们 接受 的 语言 全 都 有 无 歧义 文法 。 不 幸 的 是 ，DPDA 语 言 
并 不 恰好 等 于 CFL 的 非 固有 歧义 的 子 集 。 例 如 ，Lm 具 有 无 歧义 文法 

5—0S011S1le 

然而 它 并 不 是 DPDA 语 言 。 下 面 的 定理 涵盖 了 以 上 的 讨论 。 

定理 6.20 如 果 对 于 某 个 DPDA PAL = NP), MLA ELA EF BRI. 

证 明 ”定理 6.14 中 的 构造 过 程 能 够 生成 无 歧义 的 CFG G， 只 要 它 所 应 用 的 PDA 是 确定 型 的 。 


首先 回忆 定理 5.29， 为 了 证 明 G 是 无 歧义 的 ， 只 要 该 文法 有 惟一 的 最 左 推导 就 是 够 了 。 
假设 P 以 空 栈 方式 接受 串 w。 那 么 它 一 定 以 惟一 的 移动 序列 来 完成 接受 过 程 ， 因 为 它 是 确定 


O 这 句 话 正 是 整个 证 明 的 赁 直觉 需要 《比较 困难 的 ) 形式 化 证 明 的 部 分 ，P 可 能 存在 其 他 能 够 比较 两 块 相同 个 
数 的 0 的 途径 吗 ? 
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型 的 ， 并 且 一 旦 它 的 堆栈 为 空 它 就 不 能 继续 移动 了 。 已 知 这 些 移动 序列 的 话 ， 我 们 就 能 够 确定 
在 G 推 导出 w 的 最 左 推导 中 每 一 步 所 选择 的 产生 式 。 导 致使 用 该 产生 式 的 P 的 规则 总 是 惟一 的 。 
然而 ， 一 条 P 的 规则 ， 比 如 gq, a, X) = {(r, 万 及 … 欧 } 可 能 导致 多 条 G 的 产生 式 ， 因 为 在 反映 弹出 
Yi, Yay, 用 -中 的 每 个 之 后 P 的 状态 的 位 置 可 以 有 不 同 的 状态 。 因 为 P 是 确定 型 的 ， 所 以 只 有 这 
些 选 择 序列 中 的 一 个 能 和 P 实 际 的 动作 相 一 致 ， 因 此 只 有 这 些 产生 式 中 的 一 个 能 够 实际 上 导致 w 
的 推导 。 口 


但 是 ， 我 们 可 以 证 明 更 多 的 东西 : 即使 是 那些 DPDA 以 终结 状态 方式 接受 的 语言 也 有 无 歧义 
的 文法 。 由 于 我 们 只 知道 怎样 直接 从 以 空 栈 方式 接受 的 PDA 来 构造 文法 ， 因 此 需要 把 相关 的 语 
言 变 为 具有 前 缀 性 质 的 ， 并 且 修 改 所 得 的 文法 以 产生 原来 的 语言 。 我 们 通过 使 用 一 个 “结束 标 
记 ” 符 号 来 做 到 这 一 点 。 


定理 6.21 如 果 对 于 某 个 DPDA PAL = KP)， 则 Z 有 无 歧义 的 CFG。 

证 明 令 $ 为 “结束 标记 ”符号 ， 并 且 它 不 在 的 串 中 出 现 ， 再 令 乙 = LS, HE, LHR 
由 L 的 串 分 别 在 未 尾 添上 符号 $ 构 成 。 显 然 忆 具有 前 缓 性质， 并 且 根据 定理 6:19， 对 于 某 个 DPDA 
P 有 L'= N(P)。9 根据 定理 620， 存 在 一 个 无 歧义 文法 G'，G 能 够 产生 语言 MP)， 也 就 是 已。 

现在 来 从 G' 构造 文法 G， 满 足 EL(G) = 工 。 为 了 达到 这 个 目的 ， 我 们 只 需要 从 串 中 去 掉 结 束 标 
记 $。 因 而 ， 把 $ 看 作 G 的 一 个 变 元 ， 同 时 引入 产生 式 $ 一 s， GU, C 和 G 的 产生 式 相同 。 由 于 
UG) = 万 ， 所 以 KGO) =L. 

我 们 断言 G 是 无 歧义 的 。 为 了 证 明 这 点 ，G 中 的 最 左 推导 恰好 也 是 G' 中 的 最 左 推导 ， 除 了 在 
G 中 的 推导 的 最 后 一 步 是 用 e 来 替换 $。 因 此 ， 如 果 一 个 终结 符 串 w 在 G 中 有 两 个 最 左 推导 ， 那 么 
WSTEC 中 也 有 两 个 最 左 推导 。 因 为 已 知 G' 是 无 歧义 的 ， 所 以 G 也 是 。 口 


6.4.5 习题 


习题 6.4.1 ”对 于 下 面 的 每 一 个 PDA， 说 明 它 是 否 是 确定 型 的 。 或 者 证 明 它 满足 DPDA 的 定 
义 ， 或 者 找到 它 违反 的 规则 。 

a) 例 6.2 中 的 PDA。 
* b) 习题 6.1.1 中 的 PDA。 

c) 习题 6.3.3 中 的 PDA。 

习题 6.4.2 给 出 接受 下 列 语言 的 确定 型 下 推 自动 机 : 

a) {O"1"|In<m}, 

b) {0"1" In>m}。 

c) {0"1"0" 1n 和 m 为 任意 数 }。 

习题 6.4.3 我 们 可 以 分 三 部 分 来 证 明定 理 6.19: 


日 ”定理 6.19 的 证 明 在 习题 6.4.3 中 ， 但 是 这 里 可 以 简单 地 看 看 怎样 从 P 构 造 P。 增 加 一 个 新 的 状态 49， 一 旦 P 处 在 一 
个 接受 状态 并 且 下 一 个 输入 为 S 时 就 进入 4。 在 状态 9 时 ，P 弹 出 它 的 堆栈 中 的 所 有 符号 . I, PRECA 
己 的 栈 底 标记 来 避免 在 它 模 拟 P 的 时 候 偶然 清空 它 的 堆栈 。 
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+a) EH: 如 果 对 于 某 个 DPDA P 有 L=N(P)， 则 ZL 具 有 前 绥 性 质 。 

1b) 证 明 ; 如 果 对 于 某 个 DPDA PHL = N(P)， 则 存在 DPDA P' HEL = LP’), 

#10) 证明: 如 果 L 具 有 前 级 性 质 ， 并 且 对 某 个 DPDA P' 是 LP)， 则 存在 DPDA P 满足 L=N(P)。 

小 习题 6.4.4 证 明 : 语言 

L={0"l"In>1}U {01*In>1} 

是 不 被 任何 DPDA 接 受 的 上 下 文 无 关 语言 。 提 示 : 证 明 一 定 存在 两 个 n 值 不 同 的 0"1" 形式 的 串 ， 
比如 m 和 mm， 它 们 能 够 导致 一 个 Z 的 假想 的 DPDA 在 读 入 了 这 两 个 串 之 后 进 大 相同 的 ID。 直观 上 ， 
该 DPDA 为 了 检查 是 否 看 到 了 同样 个 数 的 1， 它 一 定 要 把 在 读 入 0 时 所 保存 在 堆栈 中 的 几乎 所 有 信 
息 擦 除 。 因 此 ， 该 DPDA 在 看 到 接 下 来 的 m 个 1 或 者 mw 个 1 时 就 无 法 判断 是 否 应 该 接受 。 


6.5 小 结 


“下 推 自动 机 : PDA 是 带 有 堆栈 的 非 确定 型 有 穷 自 动机 ， 堆 栈 可 以 用 于 保存 任意 长 度 的 串 。 
堆栈 只 能 在 它 的 顶部 读 取 和 修改 。 

"下 推 自动 机 的 移动 : PDA 根 据 它 的 当前 状态 、 下 一 个 输入 符号 和 处 在 它 栈 项 的 符号 来 选择 
下 一 步 的 移动 。 它 也 可 以 不 考虑 输入 符号 来 选择 下 一 步 的 移动 ， 同 时 也 不 消耗 输入 符号 。 
由 于 非 确定 性 ，PDA 可 以 有 有 限 种 移动 的 选择 ， 每 个 选择 包括 一 个 新 的 状态 和 一 个 堆栈 符 
号 串 ， 后 者 是 用 来 替换 当前 栈 项 符号 的 。 

“下 推 自动 机 接受 : PDA 有 两 种 方式 来 表示 接受 。 一 种 是 通过 进入 接受 状态 ， 另 一 种 是 通过 
清空 它 的 堆栈 。 这 两 种 方式 是 等 价 的 ， 这 种 等 价 性 是 指 以 一 种 方式 接受 的 任何 语言 都 可 以 
(被 某 个 其 他 的 PDA) 以 另 一 种 方式 接受 。 

OAT IE: 我 们 用 包含 状态 、 剩 余 的 输入 和 堆栈 内 容 的 ID 来 描述 PDA 的 “当前 的 情形 ”。 
ID 之 间 的 转移 函数 上 代表 PDA 的 一 步 移动 。 

“下 推 自动 机 和 文法 : PDA 以 终结 状态 方式 或 者 以 空 栈 方式 接受 的 语言 正 是 上 下 文 无 关 语 
言 。 

“确定 型 下 推 自动 机 : 如 果 对 于 一 个 给 定 的 状态 、 输 入 符号 (包括 e) 和 堆栈 符号 ， 一 个 
PDA 从 不 需要 做 移动 的 选择 ， 则 我 们 称 这 个 PDA 是 确定 型 的 。 另 外 ， 它 也 不 需要 在 是 使 用 
输入 移动 还 是 使 用 e 移 动 之 间 做 选择 。 

“确定 型 下 推 自动 机 接受 : 两 种 接受 方式 (终结 状态 方式 和 空 栈 方式 ) 对 DPDA 来 说 不 是 相 
同 的 。 更 确切 地 说 ,以 空 栈 方式 接受 的 语言 正 是 以 终结 状态 方式 接受 旦 有 前 绥 性 质 的 语言 ， 
前 绥 性 质 是 指 : 语言 中 的 任何 串 都 不 是 语言 中 其 他 串 的 前 级 。 

，DPDA 接 受 的 语言 :所 有 正则 语言 都 被 DPDA (以 终结 状态 方式 ) 接受 ， 而 且 存在 被 DPDA 
接受 的 非 正则 的 语言 。DPDA 语 言 是 上 下 文 无 关 语言 ， 而 且 事 实 上 是 拥有 无 歧义 CFG 的 语 
言 。 因 此 ，DPDA 语 言 是 严格 位 于 正则 语言 和 上 下 文 无 关 语言 之 间 的 。 


6.6 参考 文献 
下 推 自动 机 的 思想 归功 于 Oettinger[4] 和 Schutzenberger[5] 的 独立 研究 成 果 。 下 推 自动 机 和 上 
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下 文 无 关 语 言 之 间 的 等 价 性 也 是 独立 发 现 的 结果 ， 它 首次 出 现在 1961 年 N. Chomsky 在 MIT 的 技 
术 报 告 中 ， 但 是 被 Evey[] 首 次 发 表 。 

确定 型 PDA 是 由 Fischer[2] 和 Schutzenberger[5] 首 次 提出 的 。 后 来 它 作为 语法 分 析 器 的 模型 从 
而 拥有 了 很 大 的 意义 。 值 得 一 提 的 是 ，[3] 提 出 了 “LR() 文 法 "， 一 个 恰好 产生 DPDA 语 言 的 CFG 
的 子 类 。 后 来 LR(A) 文 法 成 为 了 YACC 的 基础 ，YACC 是 5.32 节 中 讨论 的 语法 分 析 器 的 生成 工具 。 


1 


. J. Evey, “Application of pushdown store machines,” Proc. Fall Joint Com- 
puter Conference (1963), AFIPS Press, Montvale, NJ, pp. 215-227. 


. P. C. Fischer, “On computability by certain classes of restricted Turing 
machines,” Proc. Fourth Annl. Symposium on Switching Circuit Theory 
and Logical Design (1963), pp. 23-32. 


. D. E. Knuth, “On the translation of languages from left to right,” Infor- 
mation and Control 8:6 (1965), pp. 607-639. 


. A. G. Oettinger, “Automatic syntactic analysis and the pushdown store,” 
Proc. Symposia on Applied Math. 12 (1961), American Mathematical 
Society, Providence, RL 


. M. P. Schutzenberger, “On context-free languages and pushdown au- 
tomata,” Information and Control 6:3 (1963), pp. 246-264. 
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第 7 章 ， 上下文 无 关 语 言 的 性 质 


本 章 将 要 通过 学 习 一 些 上 下 文 无 关 语言 的 性 质 来 完成 上 下 文 无 关 语言 的 学 习 。 我 们 的 任务 
首先 是 简化 上 下 文 无 关 文 法 ， 这 些 简 化 使 我 们 能 够 更 加 容易 地 证 明 一 些 关于 CFL 的 事实 。 其 原 
因 是 可 以 断言 :如 果 某 个 语言 是 CFL， 那 么 它 一 定 具 有 某 种 特殊 形式 的 文法 。 

然后 ， 证 明 CFL 的 “ 泵 引 理 "。 这 个 定理 和 关于 正则 语言 的 定理 4.1 异 曲 同 工 ， 只 不 过 该 定理 
是 用 来 证 明 一 个 语言 不 是 上 下 文 无 关 的 。 接 着 考虑 一 下 在 第 4 章 中 介绍 的 正则 语言 的 那 种 类 型 的 
一 些 性 质 :; 封闭 性 和 判定 性 质 。 本 章 将 会 看 到 有 一 些 (但 不 是 全 部 ) 正则 语言 有 的 封闭 性 CFL 
也 有 。 同 样 ， 有 些 关于 CFL 的 问题 也 可 以 用 算法 来 判定 ， 而 且 这 些 算法 只 是 把 对 正则 语言 的 测 
试 方法 推广 了 ， 但 是 也 存在 某 些 我 们 无 法 回答 的 关于 CFL 的 问题 。 


7.1 上 下 文 无 关 文 法 的 范式 


本 节 的 目标 是 证 明 任何 CFL (不 包括 sj) 都 能 用 只 有 A 一 BC 或 者 A 一 a 形式 产生 式 的 CFG 产 生 ， 
其 中 4, B 和 C 是 变 元 ， 而 a 是 终结 符 。 这 种 形式 称 为 乔 姆 斯 基 范 式 。 为 了 得 到 这 种 形式 的 CFG， 
我 们 需要 做 很 多 初步 的 简化 ， 而 这 些 简 化 方法 本 身 在 很 多 方面 都 很 有 用 : 

1. 我们 必须 去 除 无 用 蔡 号 。 所 谓 无 用 符号 ， 是 指 不 出 现在 任何 由 开始 符号 推导 出 一 个 终结 

符 串 的 过 程 中 的 变 元 和 终结 符 。 
2. 我 们 必须 去 除 e 产 生 式 。 所 谓 e 产 生 式 ， 是 指 4 一 形式 的 产生 式 ， 其 中 4 是 变 元 。 
3. 我 们 必须 去 除 单位 产生 式 。 所 谓 单位 产生 式 ， 是 指 4 一 B 形 式 的 产生 式 ， 其 中 4 和 B 式 是 
变 元 。 
7.1.1 去 除 无 用 的 符号 


如 果 存在 某 个 5>aXB 过 w 形式 的 推导 ,其 中 w 属 于 7*, 我 们 说 对 于 一 个 文法 G = (V, T, P; 9) 
符号 X 是 有 用 的 。 注 意 , X 可 以 在 Y 或 者 7 中 ， 而 句 型 aX 可 能 是 推导 中 的 第 一 个 或 者 最 后 一 个 。 
如 果 X 不 是 有 用 的 ， 就 称 它 是 无 用 的 。 显然， 从 一 个 文法 中 去 除 无 用 的 符号 并 不 会 改变 该 文法 产 
生 的 语言 ， 因 此 我 们 可 以 尽量 检测 和 去 除 所 有 的 无 用 符号 。 

我 们 去 除 无 用 符号 的 方法 是 通过 识别 一 个 有 用 符号 一 定 应 该 能 做 的 两 件 事 : 

1. 如果 对 于 某 个 终结 符 串 w 有 X=w ， 我 们 称 X 是 产生 的 。 注 意 ， 任 何 终结 符 都 是 产生 的 ， 

因为 w 可 以 为 该 终结 符 本 身 ， 这 样 就 只 需要 0 步 推导 。 

2. 如 果 对 于 某 个 ax 和 B 有 5 过 aXB ， 我 们 称 X 是 可 达 的 。 

显然 一 个 有 用 的 符号 一 定 是 产生 的 和 可 达 的 。 如 果 我 们 首先 去 除 不 是 产生 的 符号 ， 然 后 再 
从 剩余 的 文法 中 去 除 不 是 可 达 的 符号 ， 剩 下 的 符号 一 定 只 有 有 用 的 符号 了 ， 这 一 点 将 会 给 出 
证 明 。 
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例 7.1 考虑 文法 
S 一 4B1a 
Ab 
除了 B 之 外 所 有 的 符号 都 是 产生 的 ; a 和 2 产生 它们 自己 ;3 产生 o，4 产 生 六 如 果 去 除 8， 我 们 一 
定 要 去 除 产生 式 S 一 4B8， 剩 下 的 文法 是 : 
S~a 
A—b 
现在 ， 我 们 发 现 只 有 S$ 和 a 是 从 5 可 达 的 。 去 除 A 和 b 后 剩 下 的 产生 式 只 有 5 一 a。 只 有 该 产生 式 的 文 
法 的 语言 是 {a}， 而 这 和 原来 的 文法 的 语言 相同 。 
注意 ， 如 果 先 检查 可 达 性 ， 我 们 会 发 现 文法 


S—ABla 

A>=b 
的 所 有 符号 都 是 可 达 的 。 如 果 接 着 因为 符号 B 不 是 产生 的 而 把 它 去 除 ， 那 么 得 到 的 文法 中 仍然 有 
无 用 的 符号 ,特别 地 ， 在 本 例 中 为 4 和 b。 已 


定理 7.2 设 G =(V,7,P, 5) 是 一 个 CFG， 并 且 假设 L(G) = 入， 也 就 是 说 ，G 产 生 至 少 一 个 串 。 
WG: = (Vi, Ti, Pi, 39) 是 通过 下 面 的 步 又 获得 的 文法 : 
1. 首先 去 除非 产生 符号 和 所 有 包含 一 个 或 多 个 这 些 符号 的 产生 式 。 设 G2 = (Va, Ta, Pay 5) 是 
这 样 得 到 的 新 文法 。 注 意 ，5 一 定 是 产生 的 ， 因 为 假定 L(G) 至 少 有 一 个 申 ， 因 此 5 没有 被 
去 除 。 
2. 其 次 ， 去 除 文法 G: 中 的 非 可 达 符 号 。 
则 G, 中 没有 无 用 符号 ， 且 L(CG)= LO)。 
证 明 ”假设 X 是 剩 下 的 符号 之 一 ， 也 就 是 说 ，X 属 于 WU7,。 我 们 知道 对 于 7 中 的 某 个 w 
Xew 。 此 外 ， 从 X 推 导 w 的 过 程 中 使 用 的 任何 符号 都 是 产生 的 ， 因此 X 之 mw 。 


因为 X 在 第 二 步 中 没有 被 去 除 ， 因此 我 们 也 知道 存在 a 和 满足 Saxp 。 更 进一步 地 说 ， 
每 个 在 该 推导 过 程 中 使 用 的 符号 都 是 可 达 的 ， 因 此 有 3 之 axXp 。 

我 们 知道 aXB 中 的 每 个 符号 都 是 可 达 的 ， 并 且 我 们 也 知道 这 些 符 号 都 属于 V2UT;,， 所 以 它们 
中 的 每 一 个 在 G, 中 都 是 产生 的 。 某 个 终结 符 串 的 推导 (比如 aXB>xwy) 仅 包 含 从 5 可 达 的 符号 ， 
原因 是 它们 是 从 aXp 中 的 符号 可 达 的 。 因 此 ， 这 个 推导 也 是 Gi 中 的 推导 ， 即 : 


SND my 
由 此 得 出 结论 : X 在 Gi 中 是 有 用 的 。 因 为 X 是 Gi 中 的 任意 符号 ， 所 以 可 以 得 出 结论 : G1 中 没有 无 
用 符号 。 l 
最 后 一 个 细节 是 必须 证 明 LG) = L(G)。 照 常 ， 为 了 证 明 两 个 集合 相同 ， 需 要 证 明 它们 互相 
包含 。 
LG) CLG): 由 于 只 从 G 中 去 除了 符号 和 产生 式 就 得 到 了 Gi， 因 此 得 出 XGD) CL(G) 的 结论 。 
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UG) 2LG): 必须 证 明 如 果 w 属 于 KG)， 则 w 也 属于 KGD。 如 果 w 属 于 KKO)， 则 sw. E 


为 该 推导 中 的 每 个 符号 都 是 可 达 的 和 产生 的 ， 因 此 它 也 是 G, 中 的 推导 。 也 就 是 说 ， Saw ， 
此 w 属 于 LC)。 口 


71.2 计算 产生 符号 和 可 达 符 号 


还 剩 两 个 问题 ; 怎样 来 计算 一 个 文法 的 产生 符号 的 集合 ， 以 及 怎样 计算 一 个 文法 的 可 达 符 
号 的 集合 ? 对 于 这 两 个 问题 ， 我 们 使 用 的 算法 尽 其 全 力 来 发 气 这 两 种 类 型 的 符号 。 本 节 将 会 证 
H: 如 果 这 两 个 集合 的 正确 归纳 构造 过 程 无 法 发 现 一 个 符号 是 产生 的 或 者 是 可 达 的 ， 那 么 这 个 
符号 就 不 是 这 些 类 型 的 。 

WEG =(V,T, P, 5) 是 一 个 文法 。 为 了 计算 G 的 产生 符号 ， 实 施 下 面 的 归纳 过 程 。 

基础 每 个 7 中 的 符号 都 显然 是 产生 的 ， 因 为 它 能 产生 它 本 身 。 

归纳 : 假设 有 一 个 产生 式 4 一 c， 并 且 c 中 的 符号 都 已 知 是 产生 的 了 ， 则 4 也 是 产生 的 。 注 意 ， 
这 条 规则 包括 a = e 的 情况 ， 所 有 以 e 作 为 产生 式 体 的 变 元 当然 都 是 产生 的 。 


例 7.3 ”考虑 例 7.1 中 的 文法 。 根 据 基础 部 分 可 知 ，a 和 5 都 是 产生 的 。 对 于 归纳 部 分 ， 由 产生 
式 4 一 b 得 出 4 是 产生 的 ， 再 根据 产生 式 5 一 a 得 出 是 产生 的 。 到 此 为 止 ， 整 个 归纳 过 程 结束 。 我 
们 无 法 使 用 产生 式 5 一 AB， 因 为 并 不 知道 3 是 产生 的 。 因 而 ， 产 生 符 号 的 集合 为 {a,b, A,5}。 o 


定理 7.4 上 面 的 算法 找到 的 恰好 是 G 中 全 部 的 产生 符号 。 

证 明 ”对 于 一 个 方向 ,这 是 一 个 简单 的 把 符号 加 入 产生 符号 的 集合 (被 加 入 该 集合 的 符号 
确实 都 是 产生 符号 ) 的 顺序 上 的 归纳 。 这 部 分 的 证 明 留 给 读者 。 

对 于 另 一 个 方向 ， 假 设 X 是 一 个 产生 符号 ， 也 就 是 X20. 我 们 根据 对 这 个 推导 过 程 的 长 度 
进行 归纳 来 证 明 一 定 能 找到 X 是 产生 的 。 

基础 : 零 步 的 情况 ， 则 X 是 终结 符 ， 因 此 在 基础 部 分 即 找到 X。 

归纳 ， 如 果 该 推导 过 程 共有 n 步 ， 其 中 n >0 ， 则 X 是 一 个 变 元 。 设 该 推导 为 X= 二 a 过 w ， 也 
就 是 说 , 第 一 个 使 用 的 产生 式 是 X 一 a。a 中 的 每 个 符号 都 推导 出 了 是 w 中 的 某 个 部 分 的 终结 符 申 。 
根据 归纳 假设 可 知 ，a 中 的 每 个 符号 都 能 被 发 现 是 产生 的 。 该 算法 的 归纳 部 分 允许 我 们 用 产生 
式 X 一 a 来 推出 X 是 产生 的 。 口 


现在 来 考虑 能 找到 文法 G = (V, T, P, 5) 的 可 达 符 号 集合 的 归纳 算法 了 。 同样， 可 以 证 明 只 要 
尽 全 力 去 发 现 可 达 符 号 ， 最 后 任何 没有 加 入 可 达 符 号 集合 的 符号 都 不 是 可 达 的 。 

基础 :5 显然 是 可 达 的 。 

归纳 : 假设 我 们 已 经 发 现 某 个 变 元 A 是 可 达 的 。 则 对 于 所 有 以 4 为 头 的 产生 是 ， 所 有 该 产生 
式 体 中 的 符号 也 都 是 可 达 的 。 


例 7.5 ”再 一 次 从 例 7.1 中 的 文法 出 发 。 根 据 基础 部 分 可 知 ，5 是 可 达 的 。 由 于 5 有 以 AB 和 a 为 
体 的 产生 式 ， 因 此 得 出 4, 8 和 a 都 是 可 达 的 。8 没 有 产生 式 ， 但 4 有 A 一 b。 因 此 b 也 是 可 达 的 , 现 
在 ,没有 其 他 可 以 加 入 到 可 达 符 号 集合 中 的 符号 了 ， 因 此 最 后 该 集合 为 {5, A, Ba, b} o 
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定理 7.6 上 面 的 算法 恰好 能 够 找到 G 中 所 有 的 可 达 符 号 。 
证 明 ”这 个 证 明 是 通过 使 用 和 定理 7.4 中 类 似 的 一 对 简单 的 归纳 法 完成 的 。 我 们 把 它 留 作 
练习 。 ia} 


7.1.3 去 除 e 产 生 式 


现在 来 证 明 z 产 生 式 虽然 在 很 多 文法 设计 问题 中 非常 方便 使 用 ， 但 它 实质 上 并 不 是 必需 的 。 
当然 如 果 没 有 一 个 以 e 为 体 的 产生 式 的 话 ， 一 个 文法 的 语言 中 是 无 法 有 空 串 的 。 因 此 ， 实 际 上 需 
要 证 明 的 是 ， 如果 语 言 L 有 一 个 CFG， 则 L {e} 一 定 有 一 个 不 含 产 生 式 的 CFG。 如 果 e 不 属于 L， 
则 ZL 本 身 就 是 L 一 {e}， 因 此 L 就 有 一 个 不 含 e 产 生 式 的 CFG。 

我 们 的 策略 是 从 发 现 “ 可 空 的 ” 变 元 出 发 。 如 果 ASe 变 元 4 称 为 可 空 的 。 如 果 4 是 可 空 的 ， 
则 只 要 4 出 现在 产生 式 体 中 ， 比 如 B 一 C4D，4 就 可 能 (也 可 能 不 ) 推导 出 a。 我 们 使 用 该 产生 式 
的 两 个 版 本 : 其 中 一 个 的 体 中 没有 A (〈B 一 CD) ， 用 来 对 应 4 推导 出 E 的 情况 ， 另 一 个 有 4 (Bo 
CAD)。 然 而 ， 如 果 使 用 有 A 的 版 本 ， 则 不 允许 4 推导 出 a。 这 个 证 明 不 成 问题 ， 因 为 只 不 过 去 除 
了 所 有 以 6 为 体 的 产生 式 ， 因 而 防止 了 任何 变 元 推导 出 。 

WG = (V, T, P, 3) 是 一 个 CFG。 我 们 可 以 通过 使 用 下 面 的 迭代 算法 来 找到 所 有 G 的 可 空 符号 。 
下 面 将 会 证 明 除了 用 这 个 算法 找 出 的 符号 外 ， 再 没有 其 他 的 可 空 符号 。 

基础 :如果 A 一 a 是 一 个 6 的 产生 式 ， 则 A 是 可 空 的 。 

归纳 如果 存在 产生 式 8 一 CiC，…Ct， 其 中 每 个 Ct 都 是 可 空 的 ， 则 8B 是 可 空 的 。 注 意 ， 因 为 
每 个 C, 都 是 可 空 的 变 元 ， 所 以 只 需要 考虑 体 全 都 由 变 元 构成 的 产生 式 。 


定理 7.7 在 任何 文法 G 中 ， 上 面 的 算法 生成 的 恰好 是 全 部 的 可 空 符号 。 

证 明 该 定理 意味 着 “4 为 可 空 的 当 且 仅 当 该 算法 识别 4 是 可 空 的 "。 对 于 其 中 “ 当 ” 的 方向 ， 
只 要 发 现 一 点 即 可 : 根据 对 可 空 符号 发 现 的 顺序 进行 简单 的 归纳 可 知 ， 该 算法 发 现 的 可 空 符号 
确实 都 能 推导 出 s。 对 于 “ 仅 当 ”部 分 ， 可 以 对 最 短 推导 ASe 的 长 度 进行 归纳 。 

基础 ;一 步 的 情况 ， 则 4 一 es 一定 是 一 个 产生 式 ， 并 且 由 算法 的 基础 部 分 就 可 以 发 现 4。 

归纳 : 假设 ASe 有 n 步 ， 共 中 n>1， 则 第 一 步 一 定 是 如 下 形式 ，4 == CC,…C, 之 e ， 其 中 
每 个 Ci 都 能 用 少 于 n 步 的 序列 推导 出 s。 根 据 归纳 假设 可 知 ， 每 个 C; 都 被 该 算法 发 现 为 可 空 的 
因而 ， 在 该 算法 的 归纳 步 又 中 由 产生 式 4 一 CiC2…Ci 可 以 发 现 A 是 可 空 的 。 a 


现在 给 出 不 含 s 产 生 式 的 文法 的 构造 方法 。 设 G = (V, T, P, 5) 是 一 个 CFG。 确 定 所 有 G 的 可 空 
符号 。 构 造 一 个 新 的 文法 G1 = (V,T, Pi, 3， 其 中 产生 式 的 集合 已 的 方法 确定 如 下 。 

RE FAE PRI HERA XX Xe, FAS 1， 假 定 k 个 X 中 有 mm 为 可 空 符号 ， 则 新 的 文法 C， 
有 2” 条 这 个 产生 式 的 变 体 ， 其 中 每 个 可 空 的 X 都 有 存在 和 不 存在 的 各 种 组 合 。 有 一 个 例外 情况 : 
如 果 m =k， 也 就 是 说 ， 所 有 的 符号 都 是 可 空 的 ， 那 么 并 不 包括 所 有 的 Xi 都 不 存在 的 情况 。 也 注 
ES: 如 果 P 中 有 一 个 产生 式 是 A 一 e 形 式 的 ， 则 不 把 这 个 产生 式 放 在 Pi 中 。 


例 7.8 考虑 文法 
S 一 4B 
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A-aAAle 
B-bBB\e 


首先 ， 找 出 所 有 的 可 空 符 号 。 因 为 4 和 B 有 以 为 体 的 产生 式 ， 所 以 可 以 直接 判断 出 它们 是 可 
空 的 。 然 后 ,因为 产生 式 5 一 AB 的 体 中 的 符号 都 是 可 空 的 ， 因 此 5 也 是 可 空 的 。 因 而 ， 这 三 个 变 
元 都 是 可 空 的 。 

现在 ， 构 造 文法 G1 的 产生 式 。 首 先 考 虑 5 一 AB。 这 个 产生 式 的 体 中 的 所 有 符号 都 是 可 空 的 ， 
因此 有 四 种 4 和 8 相互 独立 地 存在 或 不 存在 的 组 合 。 然 而 ,其 中 4 和 B 都 不 存在 的 组 合 是 不 允许 的 ， 
因此 得 到 了 三 个 产生 式 : 

S 一 4B141B 

接着 ， 考 虑 产生 式 4 一 a44。 其 中 第 二 个 和 第 三 个 位 置 上 的 符号 是 可 空 的 ， 因 此 这 次 也 有 四 
种 存在 /不 存在 组 合 。 不 过 这 次 的 四 种 组 合 都 是 允许 的 ， 原 因 是 不 可 空 符号 a 总 是 存在 的 。 这 四 
种 组 合 产生 了 产生 式 : 

A—aAAlaAlaAla 

注意 ， 中 间 的 两 个 产生 式 是 相同 的 ， 原 因 是 如 果 我 们 决定 去 掉 其 中 一 个 的 话 ， 不 论 去 掉 哪 
个 4 结果 都 一 样 。 因 此 ， 最 终 的 文法 G, 中 只 有 三 个 4 的 产生 式 : 

同样 地 ，G, 中 8 的 产生 式 产生 ; 

B—bBB | bB |b 
6 的 两 个 e 产 生 式 在 G1 中 什么 都 没 产生 。 因 此 最 后 Gi 的 产生 式 为 : 
S—ABIAIB 
4 一 a441a41a 
B-bBB|bB\b 口 


下 面 要 通过 下 列 方法 得 出 去 除 e 产 生 式 这 部 分 内 容 的 结论 : 证 明 除了 如 果 G 的 语言 中 有 e 的 
话 将 会 把 它 去 掉 之 外 ， 上 面 的 构造 过 程 并 不 改变 相应 的 语言 。 因 为 该 构造 过 程 明显 地 去 除了 e 
产生 式 ， 因 此 将 仅 给 出 如 下 命题 的 完整 证 明 : 对 于 每 个 CFG G， 存 在 一 个 不 含 e 产 生 式 的 文法 
Gi 满足 : 

L(G:) = L(G) - {e} 

定理 7.9 ”如 果 文法 Gl 是 用 上 面 去 除 e 产 生 式 的 构造 方法 从 文法 G 构 造 而 来 的 ， 则 LG1) = L(G) 
—{e}。 

证 明 ”我 们 必须 证 明 : 如 果 w 去 ze， 则 w 属 于 L(G1) 当 且 仅 当 w 属 于 LG)。 我 们 经 常会 发 现 ， 证 


明 一 个 更 加 一 般 的 结论 反而 更 容易 。 在 这 种 情况 下 ， 我 们 需要 讨论 每 个 变 元 产生 的 终结 符 串 ， 
即使 实际 上 只 需要 考虑 由 开始 符号 S 产 生 什么 即 可 。 因 而 ， 将 要 证 明 : 


+ ASw MALY ASwHwee, 


两 个 方向 的 证 明 都 是 对 推导 的 长 度 进行 归纳 。 
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( 仅 当 ) ASW, MUAH, BULGER. RIES AS w eRe 
进行 归纳 来 完成 证 明 。 

基础 一步 的 情况 ， 此 时 G1 中 一 定 有 产生 式 4 一 w。G 的 构造 过 程 告诉 我 们 G 中 一 定 有 产生 
式 A 一 a， 使 得 a 是 由 w 中 间 插 入 零 个 或 多 个 可 空 变 元 构成 的 。 因 此 在 G 中 有 AoW ， 其 中 第 
一 步 之 后 的 所 有 步骤 是 从 所 有 a 中 的 可 空 变 元 推导 出 8 

归纳 :假设 该 推导 有 /> 1 步 ， 则 该 推导 一 定 是 4 之 总 厂 … 马 全 w 形 式 的 。 其 中 使 用 的 第 一 
个 产生 式 一 定 来 自 4- 芒 蚊 …Zm， 其 中 这 些 Y 依 次 是 前 面 的 那些 X 中 间 插入 和 零 个 或 多 个 可 空 变 元 。 
我 们 也 把 wd 打 断 为 wawa…ws， 并 且 对 于 ;= 1, 2, …, 有 Xw, 。 如 果 思 是 终结 符 ， 则 w = Xi 5 fo 
RX BITE, MES Xm, HEMDE. KARETA XDW 。 

现在 ， 构 造 C 中 相应 的 推导 如 下 


4 二 2 全 着 生生 

第 一 步 使 用 的 产生 式 是 4 一 六 芒 …m， 已 知 它 是 C 中 的 产生 式 。 下 一 组 推导 步骤 表示 从 每 个 不 在 
% 中 的 推导 出 s。 最 后 一 组 推导 步 骆 表示 从 包 推 导出 w,， 而 这 由 归纳 假设 可 知 。 

( 当 ) 假设 Aw wee, REESE A 之 w 的 长 度 n 进 行 归纳 来 完成 证 明 。 

基础 :一步 的 情况 ， 此 时 4 一 w 一 定 是 G 中 的 产生 式 。 因 为 we， 这 个 产生 式 也 是 Gi 中 的 产 
生 式 ， 并 且 ASW, 

归纳 : 假设 该 推导 有 n> 1 步 ， 则 该 推导 一 定 是 AS YY, Sew 形式 的 。 把 w 分 解 为 ww 
Was TEEPE = 1,2, omg Yw, BEX Xoe, 攻 是 那些 满足 wj 关 6 的 %。 因 为 w 关 e， 所 以 
一 定 有 k> 1。 因 此 ，4 一 XiX2… 取 一 定 是 Gi 中 的 产生 式 。 

我 们 断言 一 定 有 轧 冶 二 冶 写 放 ， 原 因 是 只 有 那些 不 属于 X 的 萎 才 被 用 于 推导 出 e， 而 且 它 们 
对 于 推导 出 w 并 没有 贡献 。 由 于 每 个 推 已 之 w 少 于 n 步 ， 因 此 可 以 由 归纳 假设 得 出 :如果 
e WY Sw, 。 因 此 有 ATP XXX, Sw, 

现在 完成 整个 证 明 如 下 : 我 们 知道 w 属 于 KG)) 当 且 仅 当 $ 之 w ， 在 上 式 中 令 4 = S， 可 知 w 属 
于 KGD 当 且 仅 当 3 避 w 且 w 关 es。 也 就 是 说 ，w 属 于 KGJ) 当 上 且 仅 当 w 属 于 KG) Ewe, 口 
714 去 除 单位 产生 式 


单位 产生 式 是 4 一 B 形 式 的 产生 式 ,其 中 4 和 8 都 是 变 元 。 这 些 产生 式 可 能 是 有 用 的 。 例 如 ， 
在 例 5.27 中 ,我们 已 经 看 到 通过 使 用 单位 产生 式 E 一 T 和 T 一 F 可 为 简单 的 算术 表达 式 构 造 一 个 无 
歧义 的 文法 : 
I>albllallbl iin 
F—11(B) 
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TE>FIT#F 
E-TIE+T 
然而 ， 单 位 产生 式 使 某 些 证 明 变 得 复杂 ， 而 且 它们 也 会 给 推导 过 程 引入 本 来 在 技术 上 不 需 
要 的 步骤 。 例 如 ,我们 可 在 产生 式 E 一 7 中 用 两 种 方式 来 扩展 T 一 用 两 个 产生 式 E 一 F1T FRE 
代 它 。 这 些 改变 仍然 没有 去 除 单位 产生 式 ， 因 为 我 们 在 文法 中 引入 了 本 来 没有 的 单位 产生 式 E 一 
F。 进 一 步 用 两 个 F 的 产生 式 扩展 E 一 F 可 以 得 到 E 一 71 (E)IT*F， 我 们 还 是 有 一 个 单位 产生 式 E 一 1。 
但 是 如 果 用 所 有 的 六 种 方式 来 扩展 /的 话 ， 我 们 将 会 得 到 
Ealbllallbl ONI(DIT#*FIE+T 


现在 E 的 单位 产生 式 就 没 了 。 注 意 E 一 a 不 是 单位 产生 式 ， 因 为 体 中 单个 的 符号 是 终结 符 ， 而 
不 是 单位 产生 式 定义 中 所 需 的 变 元 。 

上 面 介 绍 的 技术 一 扩展 单位 产生 式 直到 它们 消失 一 一 经 常 可行 。 然 而 ， 如 果 存 在 单位 产生 
式 环 (比如 4 一 8，B 一 C，C 一 4) 则 它 可 能 会 失败 。 保 证 能 够 可 行 的 技术 是 ;首先 找到 所 有 满 
足 如 下 条 件 的 变 元 对 4 和 B: 只 用 了 一 系列 的 单位 产生 式 使 得 4 一 B 。 注 意 ， 即 使 使 用 非 单位 产 
生 式 也 可 能 有 4 一 B， 例 如 ， 使 用 产生 式 4 一 BC 和 C 一 es 

一 旦 我 们 确定 了 所 有 的 这 种 对 ， 就 可 以 用 一 个 直接 从 4 开始 使 用 了 非 单位 产生 式 B, 一 ca 的 产 
ESCA CHIE (HEF IIE A= B = B, 一 … 二 B, 一 a 。 首 先 ， 下 面 是 一 个 归纳 的 构 
造 过 程 ， 它 能 够 构造 出 只 使 用 了 单位 产生 式 满足 A> 8 的 对 (4,B)。 这 样 的 对 被 称 为 单位 对 。 

基础 ;对 于 任何 变 元 4，(4, 4) 是 单位 对 。 也 就 是 说 ， A 二 4 为 零 步 的 推导 。 

归纳 : 假设 已 知 确定 (4, B) 是 单位 对 ， 而 且 B 一 C 是 产生 式 ， 其 中 C 是 变 元 ， WA, OH 
位 对 。 


例 7.10 ”考虑 例 5.27 中 的 表达 式 文法 ， 我 们 在 上 面 重新 构造 了 它 。 基 础 部 分 给 出 了 以 下 几 个 
MAM: (E, E), (T, T), (F, PAA, 用。 对 于 归纳 部 分 ， 我 们 有 如 下 推论 : 

1.(E, 且 和 产生 式 E 一 7 得 出 单位 对 (E, 7)。 

2. (E, D 和 产生 式 7 一 F 得 出 单位 对 (E, F), 

3.(E, 朋 和 产生 式 F 一 /得 出 单位 对 (E, 丰 。 

4.(7,D 和 产生 式 T 一 F 得 出 单位 对 (7, F)。 

5. (T, 下 和 产生 式 F 一 得 出 单位 对 (T, De 

6. (F, 下 和 产生 式 F 一 /得 出 单位 对 (F,D。 
再 没有 其 他 能 推出 的 单位 对 了 ， 事 实 上 这 10 对 代表 了 所 有 只 使 用 单位 产生 式 的 推导 。 口 


至 此 ， 开 发 的 模式 也 应 该 很 熟悉 了 了。 对 于 我 们 提出 的 算法 能 够 恰好 得 出 所 有 我 们 想 要 的 单 
位 对 有 一 个 简单 的 证 明 。 然 后 ， 我 们 用 这 些 对 来 从 一 个 文法 中 去 除 单位 产生 式 ， 并 且 证 明 这 两 
个 文法 的 语言 是 相同 的 。 


定理 7.11 以 上 的 算法 恰好 能 够 发 现 CFG G 的 所 有 单位 对 。 
证 明 ”对 于 一 个 方向 ,很 容易 对 发 现 对 的 顺序 进行 归纳 ， 即 如 果 发 现 (4, B) 是 一 个 单位 对 ， 
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则 4 二 8 是 只 用 单位 产生 式 的 推导 。 这 部 分 的 证 明 留 给 读者 。 


对 于 另 一 个 方向 ,假设 4 全 83 是 只 用 单位 产生 式 的 推导 。 我 们 可 以 通过 对 发 现 对 (4, B) 的 推 
导 的 长 度 进行 进行 归纳 来 证 明 。 

基础 : 零 步 的 情况 ， 此 时 4 = B， 并 且 对 (4, 8) 由 基础 得 出 。 

归纳 : 假设 A> BURNS, Stra > 0， 其 中 的 每 一 步 都 使 用 的 是 单位 产生 式 。 则 该 推导 的 
形式 如 下 : 

A=C=B 

推导 ASC 有 n 一 1 步 ， 因 此 由 归纳 假设 可 以 发 现 对 (4, CO)。 接 着 由 算法 的 归纳 部 分 可 以 对 (4， 

C 〇 和 产生 式 C 一 B 得 出 对 (4, B)。 o 


为 了 去 除 单位 产生 式 ， 我 们 进行 如 下 操作 : 给 定 一 个 CFG G = (V, T, P, 5)， 构 造 CFG G, = 
(V,T, Pi, S): 
1. 找到 G 的 所 有 单位 对 。 
2. 对 于 每 个 单位 对 (4, 8)， 把 所 有 的 产生 式 4 一 a 加 入 Pl， 其 中 8 一 a 是 P 中 的 非 单位 产生 式 。 
注意 ， 可 能 有 A = B， 这 样 ， 己 包含 P 中 所 有 的 非 单位 产生 式 。 


例 7.12 ”让 我 们 来 继续 例 7.10， 它 完成 了 例 5.27 中 表达 式 文法 的 如 上 构造 过 程 的 第 (1) 步 。 图 
7-1 给 出 了 该 算法 的 第 (2) 步 ， 其 中 我 们 构造 的 新 的 产生 w 
式 的 集合 中 的 产生 式 的 头 为 对 中 的 第 一 个 变 元 ， 而 它 
体 为 对 中 第 二 个 变 元 的 非 单位 产生 式 的 体 。 

最 后 一 步 是 从 图 7-1 中 的 文法 中 去 除 单位 产生 式 ， 
最 后 得 到 的 文法 是 : 

E>E+TIT*F\(E)lalb lial bl 
T—=T + F| (E)lalb\ lal Ib\ 0111 
F—(E)lalbl lal Ib\ 10111 
I—albllal Ibi DIN 






E>E+T 
EsT+F 
E > (E) 
E >a |b| Ta | Tb | 70 | 71 
TTF 

T > (E) 

Ta |b| Ta | Tb| 10| 11 
F > (E) 

F >a |b] Ta | Tb| 10| 71 
I >a|b| Ta] | 10| 71 


图 7-1 由 单位 产生 式 去 除 算法 
该 文法 中 没有 单位 产生 式 ， 但 它 和 图 5-19 中 的 文法 产生 的 第 (2) 步 构造 的 文法 


的 是 同样 的 表达 式 的 集合 。 口 


定理 7.13 如果 文法 G1 是 由 上 面 所 述 的 去 除 单位 产生 式 的 算法 从 文法 G 构 造 出 来 的 ， 则 
L(G) = (G). 

证 明 我 们 将 要 证 明 : w 属 于 L(G) 当 上 且 仅 当 w 属 于 L(G')。 

( 当 ) 假设 Sow 。 因 为 Ci 中 的 每 个 产生 式 都 等 价 于 G 中 零 个 或 多 个 产生 式 的 序列 再 跟着 C 
中 的 一 个 非 单位 产生 式 ， 因 此 得 知 azp Ai asp 。 也 就 是 说 ，Gi 中 推导 的 每 一 步 都 可 以 
用 G 中 的 一 步 或 多 步 推导 来 代替 。 如 果 我 们 把 这 些 步 推导 的 序列 合 在 一 起 ， 将 会 得 到 sw 。 

( 仅 当 ) 假设 w 属 于 L(G)。 则 由 5.2 节 中 的 等 价 性 可 知 w 有 最 左 推导 ， 即 Sw 。 只 要 最 左 推 
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导 中 使 用 了 单位 产生 式 ， 体 中 的 变 元 就 成 为 了 最 左 变 元 ， 因 而 将 会 立即 被 替换 。 因 此 ， 文 法 G 中 
的 最 左 推导 可 以 被 打 断 为 一 系列 的 步骤 ， 这些 步 又 是 由 零 个 或 多 个 单位 产生 式 再 跟 上 一 个 非 单 
位 产生 式 。 注 意 ， 任 何 前 面 没有 单位 产生 式 的 非 单位 产生 式 本 身 就 是 一 个 “ 步 附 ”"。 这 些 步 骤 中 
的 每 一 步 都 可 由 G! 中 的 一 个 产生 式 来 完成 ， 原 因 是 G1 的 构造 过 程 恰好 创建 了 反映 零 个 或 多 个 单 
位 产生 式 后 面 跟着 一 个 非 单位 产生 式 的 那 种 产生 式 。 因 此 有 s>w 。 口 


现在 我 们 可 以 总 结 一 下 至 此 已 经 介绍 的 各 种 简化 方式 了 。 我 们 想 把 任何 一 个 CFG G 转 化 为 
另 一 个 等 价 的 没有 无 用 符号 、e 产 生 式 或 者 单位 产生 式 的 CFG。 为 了 实施 该 构造 过 程 ， 必 须 对 实 
施 上 面 的 几 种 简化 步骤 的 顺序 有 些 考虑 。 一 个 可 靠 的 顺序 是 : 

1. 去 除 e 产 生 式 。 

2. 去 除 单位 产生 式 。 

3. 去除 无 用 符号 。 

应 该 注意 的 是 : 正如 7.1.1 节 所 说 ， 我 们 必须 把 两 步 的 顺序 安排 好 ， 否 则 结果 中 会 有 无 用 符 
号 。 我 们 也 必须 把 上 面 的 三 步 的 顺序 安排 好 ， 否 则 结果 中 仍然 会 有 一 些 我 们 希望 去 除 的 东西 。 


定理 7.14 ”如 果 G 是 产生 至 少 包含 一 个 es 以 外 串 的 语言 的 CFG， 则 存在 另 一 个 CFG Gi 满 足 
UG) = LG) 一 {8}， 而 且 G' 没 有 产生 式 、 单 位 产生 式 或 者 无 用 符号 。 

证 明 ”从 使 用 7.1.3 节 中 所 介绍 的 去 除 e 产 生 式 的 方法 开始 。 如 果 我 们 接着 使 用 7.1.4 节 介绍 的 
去 除 单位 产生 式 的 方法 ， 则 在 该 过 程 中 并 没有 引入 任何 产生 式 ， 原 因 是 任何 新 的 产生 式 的 体 都 
是 一 个 原来 旧 的 产生 式 的 体 。 最 后 ， 我 们 用 7.1.1 节 中 介绍 的 方法 来 去 除 无 用 符号 。 因 为 这 个 变 
换 仅 去 除 产生 式 和 符号 ， 而 并 没有 引入 新 的 产生 式 ， 因 此 最 后 所 得 的 文法 中 将 会 仍然 没有 产生 
式 和 单位 产生 式 。 口 


7.1.5 乔 姆 斯 基 范式 


我 们 将 通过 下 面 的 方式 来 完成 文法 简化 这 部 分 的 学 习 : 证 明 任何 非 空 且 不 含 e 的 CFL 都 有 特 
殊 形式 的 文法 G，G 中 所 有 的 产生 式 都 属于 以 下 两 个 简单 的 形式 之 一 : 

1.4 一 BC， 其 中 4,B 和 C 都 是 变 元 , 或 者 

2.4 一 a。， 其 中 A 是 变 元 ，a 是 终结 符 。 

更 进一步 ， G 没 有 无 用 符号 。 这 样 的 文法 称 为 乔 姆 斯 基 范式 (Chomsky Normal Form) 或 
CNF, ° 

把 一 个 文法 变 为 CNF， 要 从 满足 定理 7.14 中 限制 的 形式 出 发 ， 也 就 是 说 ， 该 文法 中 没有 * 产 
生 式 、 单 位 产生 式 或 者 无 用 符号 。 这 样 的 文法 中 的 每 个 产生 式 都 或 者 是 A 一 a 的 形式 ， 此 时 已 经 
是 CNF 允 许 的 形式 ， 或 者 它 的 体 的 长 度 为 2 或 更 大 。 我 们 的 任务 是 : 

a) 重新 安排 这 些 产生 式 ， 使 得 体 的 长 度 大 于 等 于 2 的 产生 式 的 体 中 只 有 变 元 。 

b) 把 体 的 长 度 大 于 等 于 3 的 产生 式 打 断 为 一 组 级 联 的 产生 式 ， 使 得 其 中 每 个 产生 式 的 体 都 只 


O FRM (N. Chomsky) 是 首位 提出 把 上 下 文 无 关 文 法 作为 描述 自然 语言 的 一 种 方式 的 语言 学 家 ,并 且 他 证 
明了 任何 CFG 都 可 以 转化 为 这 种 形式 。 有 趣 的 是 ， 看 来 CNF 在 自然 语言 学 中 并 不 是 很 有 用 ， 但 是 我 们 将 会 看 
到 它 有 许多 其 他 的 用 处 ， 比 如 在 一 个 上 下 文 无 关 语言 中 串 的 成 员 性 的 有 效 测试 中 (7444). 
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包含 两 个 变 元 。 

步骤 a) 的 构造 过 程 如 下 。 为 每 个 出 现在 长 度 大 于 等 于 2 的 体 中 的 终结 符 & 创 建 一 个 新 的 变 元 4。 
该 变 元 只 有 一 个 产生 式 4 一 a。 现 在 ， 我 们 用 4 来 代替 所 有 长 度 大 于 等 于 2 的 体 中 出 现 的 c。 这 样 ， 
所 有 的 产生 式 的 体 或 者 是 单个 终结 符 ， 或 者 是 至 少 两 个 以 上 的 变 元 并 且 没有 终结 符 。 

对 于 步骤 b)， 我 们 必须 把 那些 形式 为 4 一 BiB:…B (其 中 kt>3) 的 产生 式 打 断 为 一 组 产生 式 ， 
其 中 每 个 产生 式 的 体 都 是 两 个 变 元 。 我 们 引入 k 一 2 个 新 变 元 C1, Co, …, Ct-2。 原 来 的 产生 式 用 下 
面 的 k 一 1 个 产生 式 来 代替 : 

4 一 BC ，Ci 一 了 Ca，…，CHa 一 BaCHa，Cea 一 BEiBk 


例 7.15 让 我 们 来 把 例 7.12 中 的 文法 转化 为 CNF。 对 于 (a) 部 分 ， 注 意 有 8 个 终结 符 a,b,0, 1,+ ,*， 
(以 及 )， 其 中 的 每 一 个 都 出 现在 不 只 是 一 个 终结 符 的 体 中 。 因 此 ， 我 们 必须 引入 8 个 新 的 变 元 ， 
分 别 对 应 这 8 个 终结 符 ， 在 引入 8 个 产生 式 来 表示 用 这 些 新 变 元 来 代替 和 它 对 应 的 终结 符 。 我 们 
使 用 最 简单 的 英文 首 字母 来 代表 新 变 元 ， 引 入 : 

A~a Bob Z-0 O 一 1 
PAH M-* L-( R=) 

如 果 我 们 引入 这 些 产生 式 ， 并 且 把 那些 不 是 单个 终结 符 的 产生 式 体 中 出 现 的 这 些 终结 符 用 

和 它 对 应 的 新 变 元 代替 ， 就 得 到 了 图 7-2 所 示 的 文法 。 





EPT | TMF | LER | a |b| IA | IB | IZ | 10 
TMF | LER | a | b | IA | IB | IZ | 10 

LER |a |b] TA | IB |12 |10 

a| b| TA | TB | IZ | 10 


ti$tdtsdlitig 


ROE VONDE TDN 
Roos 








图 7-2 使 所 有 的 产生 式 体 都 是 单个 终结 符 或 者 多 个 变 元 


现在 ,除了 长 度 为 3 的 几 个 产生 式 (EPT、TMF 和 LER) 以 外 ， 所 有 其 他 的 产生 式 都 符合 乔 
姆 斯 基 范 式 了 。 有 几 个 不 符 的 产生 式 体 还 出 现在 多 个 产生 式 中 ， 不 过 我 们 可 以 每 次 处 理 一 个 体 ， 
处 理 的 方法 是 为 每 个 引入 一 个 额外 的 变 元 。 对 于 EPT， 我 们 引入 新 变 元 C1， 并 且 用 E 一 EC 和 
Ci 一 PT 来 替换 产生 式 E 一 EPT。 

对 于 TMF， 我 们 引入 新 变 元 C:。 使 用 这 个 体 的 两 个 产生 式 E 一 TMF 和 T 一 TMF 被 灯 换 为 E 一 TC;， 
TTC: 和 C2 一 MF。 接 着 ， 对 于 LER， 我 们 引入 新 变 元 C3;， 并 且 把 三 个 使 用 它 的 产生 式 E 一 LER， 
TP>LER 和 FLER 赫 换 为 E 一 LC;，T 一 LC;，F 一 LC 和 Cs 一 ER。 最 终 的 文法 是 CNF， 如 图 7-3 所 示 。 口 


定理 7.16 ”如 果 G 是 其 语言 至 少 有 一 个 不 是 的 串 的 CFG， 则 存在 符合 乔 姆 斯 基 范式 的 文法 
GAELG) = LG) 一 {e}。 
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EC; | TC, | LC, | a | b | IA | IB | IZ | 10 
TC | LCs |a | b | TA | IB | IZ | 10 

LC; | a |b| IA | IB | IZ | 10 

a |b| TA | IB | IZ | 10 
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a 
b 
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* 

( 

) 
PT 
MF 
ER 





图 7-3 使 所 有 的 产生 式 体 都 是 单个 终结 符 或 者 两 个 变 元 


证 明 根据 定理 7.14， 我 们 能 够 找到 CFG GAELG) = KG) 一 { 时 ， 并 且 Gz 中 没有 无 用 符号 、 
产生 式 或 者 单位 产生 式 。 把 6, 转化 为 CNF 文 法 GI 的 构造 过 程 以 如 下 方式 改变 了 产生 式 : 每 个 Cl 
中 的 产生 式 可 以 用 G: 中 的 一 个 或 多 个 产生 式 来 模拟 。 反 过 来 ，Gz 中 引入 的 变 元 都 只 有 一 个 产生 
式 ， 因 此 它们 只 能 用 在 精心 设计 的 地 方 。 更 加 形式 化 地 说 ， 我 们 要 证 明 ，w 属 于 L(G;) 当 且 仅 当 w 
FLG). 

( 仅 当 ) 如 果 在 G: 中 有 一 个 w 的 推导 ， 那 么 很 容易 用 一 系列 Ci 中 的 产生 式 来 代替 该 推导 中 使 
用 的 每 个 产生 式 ， 比 如 A 一 XiX2…X。 也 就 是 说 ，G; 中 的 推导 中 的 一 步 变 成 了 使 用 G1 的 产生 式 在 
w 的 推导 中 的 一 步 或 多 步 。 首 先 ， 如 果 X 是 终结 符 ， 则 可 知 i 有 一 个 相应 的 变 元 Bi 条 汪 个 产生 式 
Bi 一 Xi。 接 着 ， 如 果 k > 2， 则 Gt 有 产生 式 4 一 BiC1，C1 一 BuC;， 等 等 ， 其 中 Bi 或 者 是 对 Xi 引入 的 
变 元 或 者 就 是 X, 一 一 如 果 % 本 身 就 是 变 元 的 话 。 这 些 产 生 式 在 G1 中 模拟 了 G; 中 使 用 了 A 一 XX2… 
名 的 推导 的 一 步 。 因 此 得 出 结论 ，G1! 中 存在 w 的 推导 ， 因 此 w 属 于 L(G)。 

( 当 ) 假设 w 属 于 L(G1)， 则 存在 G1 的 以 5 为 根 且 产 物 为 w 的 语法 分 析 树 。 接 下 来 把 该 树 转化 为 
G: 的 以 为 根 且 产 物 为 w 的 语法 分 析 树 。 

首先 ， 我们 “撤销 ”CNF 构 造 过 程 中 的 (b) 部 分 。 也 就 是 说 ， 假 设 有 一 个 标号 为 A 的 节点 ， 
它 的 两 个 子 节点 标号 为 Bl 和 Ci， 其 中 C, 是 一 个 在 (b) 部 分 中 引入 的 变 元 。 那 么 语法 分 析 树 的 这 
部 分 一 定 是 图 7-4a 的 样子 。 也 就 是 说 ， 由 于 这 些 引 和 的 变 元 每 个 只 有 二 个 产生 式 ， 因 此 它们 只 
能 以 一 种 方式 存在 ， 而 且 所 有 引入 来 处 理 产生 式 4 一 BiB…B 的 变 元 都 二 定 在 一 起 出 现 ， 如 图 
所 示 。 

语法 分 析 树 中 所 有 这 样 的 节点 入 都 可 以 用 它们 所 代表 的 产生 式 代 圭 ， 图 7-4b 给 出 了 语法 分 
析 树 变换 。 

所 得 到 的 语法 分 析 树 仍然 不 一 定 是 Go 中 的 语法 分 析 树 。 原 因 是 CNF 的 构造 过 程 的 (0) 部 分 会 
引入 其 他 推导 出 单个 终结 符 的 变 元 。 然 而 ， 我 们 可 以 在 当前 的 语法 分 析 树 中 识别 出 它们 ， 并 且 
用 单个 标号 为 a 的 节点 来 代替 一 个 标号 为 4 的 单个 节点 及 其 标号 为 a 的 子 节点 。 现在， 该 语 法 分 析 
树 的 每 个 内 部 节点 都 构成 了 G2 的 一 个 产生 式 。 因 为 w 是 Gs 的 语法 分 析 树 的 产物 ， 因 此 得 出 结论 : 
w 属 于 L(G»)。 口 
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b) 
图 7-4 G' 中 的 语法 分 析 树 一 定 用 特殊 的 方式 来 使 用 引入 的 变 元 








格雷 巴赫 范式 


对 于 文法 来 说 ， 有 另外 一 种 有 趣 的 范式 ， 不 过 我 们 将 不 加 以 证 明 。 任 何 非 空 且 不 含 e 的 
语言 都 是 某 个 文法 G 的 L(G)， 并 且 G 的 每 个 产生 式 都 是 4 一 aa 形 式 的 ， 其 中 a 是 一 个 终结 符 ， 
a 是 零 个 或 多 个 变 元 的 串 。 把 一 个 文法 转化 为 这 种 形式 的 过 程 比 较 复杂 ， 即 使 我 们 把 任务 
简化 一 些 〈 比 如 从 乔 姆 斯 基 范 式 文法 出 发 ) 也 是 如 此 。 粗 略 地 说 ， 我 们 扩展 每 个 产生 式 的 
第 一 个 变 元 ， 直 到 得 到 一 个 终结 符 。 然 而 ， 因 为 有 可 能 存在 环 ， 因 此 有 可 能 永远 无 法 到 达 
终结 符 ， 此 时 就 必须 要 使 该 过 程 “ 短 路 " :创建 一 个 产生 式 ， 这 个 产生 式 引入 一 个 新 的 终 
结 符 作为 体 的 第 一 个 符号 ， 后 面 跟着 若干 变 元 ， 这 些 变 元 是 用 来 产生 所 有 可 能 在 产生 该 终 
结 符 的 过 程 中 所 产生 的 变 元 序列 。 

这 种 形式 称 为 格雷 巴赫 范式 (Greibach Normal Form)， 是 用 格雷 巴赫 (Sheila Greibach) 
的 姓氏 命名 的 ， 因 为 他 首次 给 出 这 种 文法 的 构造 方法 。 这 种 文法 有 多 个 有 趣 的 结果 。 由 于 每 
个 产生 式 的 使 用 恰好 会 给 一 个 句 型 引入 一 个 终结 符 ， 因 此 一 个 长 度 为 n 的 串 的 推导 的 长 度 恰 
好 是 n 步 。 并 且 ， 如 果 我 们 对 于 一 个 格雷 巴赫 范式 的 文法 使 用 定理 6.13 中 PDA 的 构造 方法 ， 则 
我 们 得 到 的 PDA 没 有 规则 ， 因 此 说 明了 对 于 一 个 PDA 来 说 去 除 这 种 类 型 的 转移 总 是 可 能 的 。 
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716 习题 
* 习题 7.1.1 找到 一 个 不 含 无 用 符号 的 等 价 于 以 下 文法 的 文法 : 


S—ABICA 
A—a 
B—BC | AB 
C—aB\b 

*# 习题 7.1.2 从 以 下 文法 出 发 : 
S—ASB | € 
4 一 ah4S1a 
B—SbS | A | bb 

a) 去 除 e 产 生 式 。 

b) 去 除 单位 产生 式 。 

c) 有 没有 无 用 符号 ? 如 果 有 去 除 它们 。 

d 把 该 文法 转化 为 乔 姆 斯 基 范 式 。 


习题 7.1.3 对 以 下 文法 重复 习题 7.1.2: 
S—0A0 | 181 | BB 
4 一 C 
B 一 S14 
C—sSle 
习题 7.1.4 对 以 下 文法 重复 习题 7.1.2: 
S—AAAIB 
4 一 a41B 
Boe 
习题 7.1.5 对 以 下 文法 重复 习题 7.12: 
S—aAalbBble 
4 一 Cla 
B—Clb 
C-CDEle 
D—AlBlab 
习题 7.1.6 ”给 括号 匹配 的 串 的 集合 设计 一 个 CNF 文 法 。 你 不 必 从 任何 特别 的 非 CNF 文 法 
出 发 。 
1 习题 7.1.7 假设 CFG G 有 p 个 产生 式 ， 并 且 产 生 式 的 体 的 长 度 都 不 超过 n。 证 明 ;: WR ASe, 
则 存在 从 A 到 s 且 不 超过 (m 一 1)/(n 一 1) 步 的 推导 。 实 际 上 你 能 够 离 该 界限 多 近 ? 
! 习题 7.1.8 ”假设 我 们 有 一 个 文法 G，G 的 产生 式 右 端 长 度 之 和 是 nx， 但 这 些 产 生 式 都 不 是 e 产 
生 式 ， 把 该 文法 转化 为 CNF。 
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引证 明 : 该 CNF 文 法 至 多 有 O(m) 个 产生 式 。 

b) 证 明 : 该 CNF 文 法 可 能 有 数量 正比 于 mw 的 产生 式 。 提 示 : 考虑 去 除 单位 产生 式 的 构造 过 
程 。 

习题 7.1.9 给 出 完成 以 下 定理 的 归纳 证 明 : 

a) 定理 7.4 的 一 部 分 : 证 明 该 算法 所 发 现 的 符号 确实 是 产生 的 。 

b) 定理 7.6 的 两 个 方向 : 证 明 7.1.2 节 中 检测 可 达 符 号 的 算法 的 正确 性 。 

9 定理 7.11 的 一 部 分 : 证 明 所 有 发 现 的 对 确实 都 是 单位 对 。 

* 习题 7.1.10 ”对 于 任何 不 含 s5 的 上 下 文 无 关 语言 ， 有 没有 可 能 找到 一 个 这 样 的 文法 ; 它 的 所 
有 产生 式 都 是 4 一 BCD ( 即 体 中 包含 三 个 变 元 ) 或 者 4 一 a ( 即 体 中 包含 一 个 终结 符 ) 形式 的 ? 给 
出 证 明 ， 或 者 给 出 反例 。 

习题 7.1.11 ”在 这 个 习题 中 ， 要 证 明 对 于 任何 包含 至 少 一 个 不 是 se 的 串 的 上 下 文 无 关 语言 L， 
存在 一 个 产生 LL 一 {s} 的 格雷 巴赫 范式 的 CFG。 格 雷 巴 赫 范 式 (GNF) 的 文法 中 所 有 的 产生 式 体 
278) 都 以 一 个 终结 符 开 始 。 该 构造 过 程 将 通过 使 用 一 系列 的 引 理 和 构造 来 完成 。 
a) CFG G 有 产生 式 4 一 aBB， 并 且 所 有 B 的 产生 式 为 B 一 yi1%1.…1y。 则 如 果 我 们 用 所 有 
用 B 产 生 式 的 体 来 代 赫 B 所 得 产生 式 来 奉 代 A 一 aBB， 即 4 一 QhiB1 appl … 1 ayp, WN 
的 文法 和 G 产 生 同样 的 语言 。 
在 下 文中 ， 假 设 L 的 文法 G 是 乔 姆 斯 基 范 式 的 ， 并 且 用 到 的 变 元 为 41, Az, …, Aro 
1b) 通过 重复 使 用 (a) 部 分 的 变换 ， 证 明 可 以 把 G 转 化 为 一 个 等 价 的 文法 ， 并 且 该 文法 中 的 任 
何 4 产生 式 的 体 或 者 以 一 个 终结 符 开始 ， 或 者 以 A 开始 GSi) 。 在 这 两 种 情况 下 ， 所 有 
产生 式 中 第 一 个 符号 之 后 的 所 有 符号 都 是 变 元 ; 
!9) 假设 G1 是 通过 对 G 使 用 步 又 (b) 所 得 的 文法 。 设 4 是 任何 变 元 且 设 4 一 Aia 1… | Alco FI 
有 以 4, 开 头 的 4 产生 式 。 设 





A Bi lier 1 Bp 
是 所 有 其 他 的 4 产生 式 。 注 意 ， 每 个 6 一 定 以 一 个 终结 符 或 者 一 个 序号 比 /大 的 变 元 开头 。 
引入 一 个 新 变 元 B.， 同 时 把 第 一 组 的 m 个 产生 式 替换 为 
A—PiBil ++ | BB: 
BanBil ol +1 Bi | Am 
证 明 这 样 所 得 的 文法 和 G 以 及 G1 产生 相同 的 语言 。 

* d) 假设 C 是 使 用 步骤 (c) 所 得 的 文法 。 注 意 ， 所 有 的 4; 产生 式 的 体 都 以 一 个 终结 符 或 者 4 
(j> 站 开头。 同样， 所 有 B 产 生 式 的 体 都 以 一 个 终结 符 或 者 某 个 hy 开头。 证 明 ，G, 有 为 
GNF 的 等 价 的 文法 。 提 示 : 首先 用 (a) 部 分 中 的 方法 来 修改 Ai 的 产生 式 ， 接 着 是 久 ， 依 
此 类 推 ， 直 到 A,， 再 用 (a) 部 分 中 的 方法 来 以 任何 顺序 修改 B, 的 产生 式 。 

习题 7.1.12 用 习题 7.1.11 中 的 构造 方法 来 把 以 下 文法 转化 为 GNF: 
S—AA10 
4 一 5S11 
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7.2 上下文 无 关 语言 的 泵 引 理 


下 面 开发 一 个 工具 ， 它 可 以 用 来 证 明 某 个 语言 不 是 上 下 文 无 关 的 。 称 为 “上 下 文 无 关 语言 
的 泵 引 理 ” 的 定理 说 : 对 于 一 个 CFL 中 的 任何 串 ， 只 要 它 足 够 长 ， 就 能 够 找到 至 多 两 个 接近 的 
短 串 ， 称 其 为 合作 的 “和 泵 "。 也 就 是 说 ， 对 于 任何 整数 !， 我 们 都 可 以 重复 这 两 个 串 i 次 ， 并 且 所 
得 的 串 也 将 在 这 个 语言 中 。 

我 们 可 以 把 这 个 定理 和 类 似 的 正则 语言 的 泵 引 理 (定理 4.1， 它 是 说 总 可 以 找到 一 个 短 串 作 
Wy FR”) 相 比较 。 在 考虑 语言 Z = {0"1" n> 1 时 看 到 了 不 同 点 。 我 们 可 以 证 明 它 不 是 正则 的 ， 
只 要 固定 住 *， 同 时 泵 出 一 个 0 的 短 串 ， 这 样 所 得 的 串 中 0 的 个 数 比 1 的 个 数 多 。 然 而 ，CFL 的 泵 
引 理 只 是 说 我 们 能 够 找到 两 个 短 串 ， 因 此 我 们 可 能 不 得 不 使 用 一 个 0 的 串 和 一 个 1 的 串 ， 因 此 ， 
当 我 们 用 它们 作为 泵 时 所 得 的 串 都 在 中。 这 个 结果 其 实 是 幸运 的 ， 因 为 是 一 个 CFL， 所 以 我 
们 不 可 能 通过 CFL 泵 引 理 来 构造 出 不 属于 L 的 串 。 


7.2.1 语法 分 析 树 的 大 小 


推导 CFL 的 泵 引 理 的 第 一 步 就 是 检查 语法 分 析 树 的 大 小 和 形状 。CNF 的 用 法 之 一 就 是 能 够 
把 语法 分 析 树 变 为 二 叉 树 ， 这 种 树 有 很 多 方便 的 性 质 ， 下 面 会 使 用 其 中 的 一 个 性 质 。 


定理 7.17 ”假设 有 了 一 棵 对 应 于 乔 姆 斯 基 范 式 文法 G = (V, T, P, 3) 的 语法 分 析 树 ， 并 且 该 树 
的 产物 为 终结 符 串 w。 如 果 最 长 的 路 径 长 度 为 n， 则 Iwl<2:。 

证 明 这 个 证 明 就 是 简单 地 对 mn 进 行 归纳 。 

基础 : n = 1， 记 得 一 个 树 中 路 径 的 长 度 是 指 该 路 径 中 边 的 数目 ， 即 项 点数 减 一 。 因 此 ,一 
棵 最 大 路 径 长 度 为 1 的 树 只 有 一 个 根 节点 和 一 个 标号 为 终结 符 的 叶 节点 。 这 个 终结 符 就 是 串 w， 
因此 lwl= 1。 由 于 此 时 2 = 2 = 1， 所 以 基础 部 分 得 证 。 

归纳 :假设 最 长 路 径 的 长 度 为 "， 而 且 m>1。 该 树 的 根 使 用 的 产生 式 一 定 是 4 一 BC 形式 的 ， 
原因 是 n > 1， 也 就 是 说 ， 我 们 不 能 使 用 体 为 终结 符 的 产生 式 开始 这 棵 树 。 以 B 和 C 为 根 的 子 树 的 
最 大 路 径 的 长 度 都 小 于 或 等 于 "一 1， 原 因 是 这 些 路 径 均 不 包括 从 根 到 标号 为 B 和 C 的 节点 的 边 。 
因此 ， 由 归纳 假设 可 知 ， 这 两 棵 子 树 的 产物 的 长 度 至 多 为 2"?。 因 此 整 棵 树 的 产物 就 是 这 两 棵 子 
树 的 产物 连接 ， 它 的 长 度 也 就 至 多 为 2 + 2"?=2"!。 因 而 归纳 部 分 得 证 。 口 


7.2.2 泵 引 理 的 陈述 


CFL 的 泵 引 理 和 正则 语言 的 硝 引 理 很 类 似 ， 不 过 我 们 要 把 每 个 CFL ZL 中 的 串 z 打 断 为 五 个 部 
分 ， 而 且 我 们 把 其 中 第 二 和 第 四 部 分 合 起 来 作为 “ 泵 ”。 


定理 7.18 (上 下 文 无 关 语言 的 泵 引 理 ) 设 L 是 一 个 CFL， 则 存在 常数 满足 ， 如 果 L 中 的 申 z 
的 长 度 lz 不 小 于 n， 则 可 以 把 z 写 作 z = wvwxy， 且 满足 以 下 条 件 : 
1.lywxl < n， 也 就 是 说 ， 中 间 的 部 分 不 会 很 长 。 
2.wr 夫 E。 因 为 v 和 x 是 被 “ 泵 ”的 两 段 ， 因 此 这 个 条 件 是 说 其 中 至 少 有 一 段 不 为 空 。 
3. 对 于 所 有 的 i>0，uvwxy 属 于 L。 也 就 是 说 ， 中 间 的 两 个 串 v 和 x 可 以 被 重复 “ 泵 ”任意 多 
次 (包括 0 次 )， 并 且 所 得 的 串 仍然 属于 L。 











279| 

















281 








Download at http://www.pinSi.com/ 


192 RTE 





证 明 第 一 步 是 要 找到 L 的 乔 姆 斯 基 范 式 文法 G。 从 技术 上 来 说 ， 如 果 L 是 CFL JRH {E}, 
则 无 法 找到 这 样 的 文法 。 但 是 ， 如 果 L = 儿 则 在 该 定理 中 所 说 的 L 中 的 串 z 当 然 不 可 能 存在 ， 因 为 
儿 中 不 可 能 有 这 样 的 串 z。 同 样 ，CNF 文 法 G 实 际 上 会 产生 语言 L 一 {e}， 但 是 这 也 不 重要 ， 因 为 
我 们 当然 可 以 选取 n > 0， 这 时 无 论 如 何 z 都 不 可 能 是 e。 

现在 ， 从 一 个 满足 KC) = 工 一 { 可 的 CNF 文 法 G = (V,T,P,5) 出 发 ， 设 G 有 m 个 变 元 。 取 n = 2"。 
接着 ,假设 :属于 L， 且 它 的 长 度 至 少 是 %。 根 据 定理 7.17， 任 何 最 长 路 径 不 超过 m 的 语法 分 析 树 
的 产物 的 长 度 至 多 为 2”! = 内 2。 这 样 的 语法 分 析 树 的 产物 不 可 能 为 z， 因 为 z 太 长 了 。 因 此 ， 任 
何 产物 为 z< 的 语法 分 析 树 都 至 少 有 一 条 长 度 不 少 于 m + 1 的 路 径 。 

图 7-5 给 出 了 z 的 树 中 的 最 长 路 径 ， 其 中 至 少 是 m， 且 该 路 径 的 长 度 为 +1, HFk>m, K 
此 在 该 路 径 上 至 少 出 现 了 m + 1 次 变 元 ho, Ai, …, At。 因 为 V 中 只 有 m 个 不 同 的 变 元 ， 所 以 该 路 径 
上 的 m+ 1 个 变 元 中 至 少 有 两 个 是 同一 变 元 。 假 设 4 = 为， 其 中 k 一 m<i<j <k 








图 7-5 Z 中 每 个 足够 长 的 串 一 定 在 它 的 语法 分 析 树 中 有 一 条 足够 长 的 路 径 
然后 ， 我 们 可 以 把 图 7-6 中 的 树 分 开 。 串 w 是 以 4 为 根 节点 的 子 树 的 产物 。 串 wy 和 分别 是 











图 7-6 把 串 w 分 开 以 使 它 能 够 被 “ 泵 ” 
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在 以 Ai DRAEK bh tied AUDIO. RE, FRAR ER BELLY 
和 x 不 可 能 都 是 e， 不 过 其 中 可 能 有 一 个 是 。 最 后 ， s 
5 和 是 z 中 分 别处 于 以 Ai 为 根 节 点 的 子 树 左 边 和 右 
边 的 部 分 。 

AURA, = A) = A， 则 可 以 从 原来 的 树 出 发 来 构 
造 一 棵 新 的 语法 分 析 树 ， 就 像 图 7-7a 中 所 示 的 屠 
样 。 首先， 可 以 用 以 4 为 根 ， 产 物 为 w 的 子 树 来 i 
代替 以 4, 为 根 、 产 物 为 mex 的 子 树 。 能 够 这 么 做 的 à 
原因 是 这 两 棵 树 的 根 的 标号 都 是 4。 所 得 到 的 树 在 
图 7:7b 中 给 出 ， 它 的 产物 为 wwy， 对 应 于 串 模 板 
uviwxiy 当 i = 0 时 的 情况 。 

图 7-7c 给 出 了 另 一 种 选择 。 在 此 ， 可 以 用 以 A 
为 根 的 整 棵 子 树 来 代 赫 以 A 为 根 的 子 树 。 这 回 所 利 
用 原理 仍然 是 ， 我 们 在 用 一 个 根 标号 为 4 的 子 树 来 
代替 另 一 棵 根 标号 相 同 的 子 树 。 这 次 所 得 到 的 树 的 
产物 为 wuzwey。 如 果 再 用 产物 为 wwx 的 更 大 的 子 树 
来 代替 图 7-7c 中 产物 为 w 的 子 树 的 话 ， 将 得 到 产物 
为 uv3wx3y 的 树 ， 依 此 类 推 ， 直 到 对 于 任何 指数 i。 
因此 ， 对 于 满足 uviwxy 形 式 的 任何 串 ， 都 存在 相应 
的 G 的 语法 分 析 树 ， 至 此 已 经 几乎 证 明了 泵 引 理 。 Tak pe: 

剩 下 的 细节 就 是 条 件 (DD， 它 是 说 wxl<n。 然 9 
而 ， 我 们 所 选 的 A 是 最 靠近 树 的 底部 的 ， 也 就 是 说 图 1.7 “ARAL hv, JEARL 
ki<m。 因 此 ， 以 4 为 根 节点 的 子 树 的 最 长 路 径 eth sociales 
的 长 度 也 不 超过 m+ 1。 由 定理 7.17 可 知 ， 以 4 为 根 的 子 树 的 产物 的 长度 不 超过 2" = a 


7.2.3 CFL 的 泵 引 理 的 应 用 


值得 注意 的 是 ， 就 像 以 前 介绍 的 正则 语言 的 泵 引 理 一 样 ， 我 们 用 如 下 的 “对 手 比 赛 ”的 方 
式 来 使 用 CFL 的 泵 引 理 。 

1. 我 们 选择 一 个 想 要 证 明 不 是 CFL 的 语言 L。 

2. 我 们 的 “对 手 ”选择 a 但 我 们 并 不 知道 它 ， 因 此 我 们 必须 考虑 任何 可 能 的 #。 

3. 我 们 选择 z， 并 且 在 我 们 这 样 做 的 时 候 可 以 把 "作为 参数 。 

4. 我 们 的 对 手 把 z 打 断 为 wwwxy， 只 要 满足 条 件 lvwxi < n 且 vx + efi], 

5. 如 果 我 们 能 够 选择 i 使 得 wwx 不 属于 L， 那 么 我 们 就 “赢得 ”了 这 场 比赛 。 

下 面 来 看 一 些 能 够 用 硝 引 理 证 明 不 是 上 下 文 无 关 的 语言 的 例子 。 第 一 个 例子 说 明了 : 虽然 
上 下 文 无 关 语 言 能 够 比较 两 组 符号 是 否 相 等 ， 但 它们 无 法 比较 这 样 的 三 组 符号 。 





例 7.19 设 L 是 语言 {0"1"2"1n>1}。 也 就 是 说 ,，L 由 所 有 0* 1* 2* 中 这 三 个 符号 个 数 相 同 的 串 
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组 成 ， 例 如 012, 001122 等 。 假 设 L 是 上 下 文 无 关 的 ， 则 根据 泵 引 理 存在 一 个 整数 we 。 我 们 取 z = 
r2, 
假设 我 们 的 “对 手 ” 把 z 打 断 为 z = wry, rhwd < 1 且 v 和 x 不 都 是 e。 则 我 们 知道 wx 不 
可 能 同时 包含 Oo 和 2， 因 为 即使 是 最 后 一 个 0 和 第 一 个 2 之 间 也 相差 a + 1 个 位 置 。 我 们 将 证 明 L 包 含 
某 些 已 经 不 属于 的 串 ， 因 而 和 L 是 CFL 的 假设 相 矛 盾 。 这 些 情况 如 下 : 
1 wwx 中 没有 2。 则 wx 只 含有 0 和 1， 并 且 至 少 有 其 中 一 个 符号 根据 泵 引 理 可 知 Awy 一 定 属于 
L, 但 它 有 n 个 2 而 只 有 少 于 n 个 0 或 者 少 于 a 个 1 或 者 两 者 都 满足 ， 因 而 可 知 它 不 属于 L， 此 
时 我 们 得 知 L 不 是 CFL。 
2. wx 中 没有 0。 类 似 地 ，vwx 中 有 n 个 0， 但 是 1 或 者 2 的 数目 不 够 。 因 此 它 也 不 属于 L。 
无 论 以 上 哪 种 情况 成 立 ， 我 们 都 可 以 得 出 2 中 有 不 属于 的 串 的 结论 。 这 个 矛盾 使 得 我 们 能 
够 推翻 前 面 关于 Z 是 CFL 的 假设 ，Z 不 是 CEFL。 o 


另 一 件 CFL 不 能 做 的 事情 是 比较 两 对 符号 的 数目 是 否 分 别 相等 ， 假 设 这 两 对 符号 交 又 给 出 。 
下 面 使 用 泵 引 理 的 非 上 下 文 无 关 性 证 明 的 例子 准确 地 描述 了 这 一 思想 。 


例 7.20” 设 L 是 语言 {0112'311i>1 目 j>1}。 如 果 L 是 上 下 文 无 关 的 ， 设 n 是 [的 常数 ， 并 且 取 
z= 0"1"2"3"。 我们 可 以 把 < 写作 z = uvwxy， 并 且 满 足 vwxl<n 且 vx6。 则 wwx 或 者 包含 在 由 同一 个 
符号 构成 的 子 串 中 ， 或 者 跨越 了 两 个 相 邻 的 符号 。 

如 果 vwx 只 包含 一 个 符号 ， 则 wwy 有 n 个 三 种 不 同 的 符号 以 及 少 于 n 个 的 第 四 种 符号 。 因 此 ， 
它 不 可 能 属于 L。 如 果 vwx 跨 越 了 两 种 符号 ， 比 如 1 和 2， 则 uwy 或 者 少 了 一 些 1， 或 者 少 了 一 些 2， 
或 者 两 者 都 少 。 假 设 它 少 了 1， 因 为 有 n 个 3， 它 不 可 能 属于 L。 类 似 地 ， 如 果 它 少 了 2， 则 因为 它 
有 n 个 0， 所 以 wwy 也 不 可 能 属于 L。 我 们 可 以 得 出 矛盾 的 结论 ， 因 而 推翻 了 ZL 是 CFL 的 假设 。 o 


下 面 是 最 后 的 一 个 例子 ， 我 们 将 要 证 明 CFL 无 法 匹配 任意 长 度 的 两 个 串 ， 只 要 这 两 个 串 是 
从 不 只 有 一 个 符号 的 字母 表 中 选 出 来 的 。 顺 带 地 ， 这 个 事实 的 一 个 含意 是 ， 对 于 在 编程 语言 中 
强迫 某 些 “语义 的 ”限制 来 说 ， 文 法 并 不 是 一 个 很 合适 的 机 制 。 比 如 通常 限制 标识 符 必须 在 它 
声明 之 后 才能 使 用 。 在 实际 使 有 中 有 另 一 个 机 制 (比如 “符号 表 ") 是 用 来 记录 声明 了 的 标识 符 
的 ， 并 且 我 们 并 不 会 尝试 去 设计 一 个 能 够 检查 “定义 先 于 使 用 ”的 语法 分 析 器 。 


例 7.21 RL = {ww | w 属 于 {0, 1}}。 也 就 是 说 ，Z 由 重复 的 串 构成 ， 比 如 e, 0101, 00100010 
或 者 110110。 如 果 L 是 上 下 文 无 关 的 ， 则 设 n 是 由 泵 引 理 得 到 的 它 的 常数 。 考虑 串 z = 0o, i% 
申 是 0"1" 的 重复 ， 所 以 z 属 于 L。 

由 前 面 例子 中 的 模式 可 知 ， 我 们 可 以 把 z 写 作 z = wvwxy， 并 且 满 足 lwwxl<n 且 vx +e, R 
要 证 明 xww? 不 属于 坟 ， 并 且 因 此 根据 矛盾 证 明 L 不 是 上 下 文 无 关 语言 。 

首先 ， 注意 到 因为 wxl<n，liwwyl>3n。 因 此 ， 如 果 uwy 是 某 个 重复 的 串 ， 比 如 4t， 则 1 的 长 
度 至 少 是 3m/2。 根 据 wwx 处 在 z 中 的 位 置 ， 有 几 个 情况 需要 考虑 。 

1 .假设 "wx 处 在 前 = 个 0 中 。 特 别 地 ， 设 wx 包括 [个 0， 其 中 上 > 0, MluwyLLOm1" 打头。 因为 


O 记 住 这 个 "是 由 系 引 理 提供 的 常数 ， 所 以 它 和 语言 [本 身 定义 中 的 局 部 变量 " 毫 无 关系 。 
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luwyl = 4n 一 k&， 可 知 如 果 uwy =t Wl) id =2n—k/ 2, ee EBS aR, tw 
说 ,t 在 0 中 结束 。 但 是 wwy 结 束 在 1 中 ， 因 此 它 不 可 能 等 于 #。 

2. 假设 wwx 跨 越 了 第 一 段 0 和 第 一 段 1。 则 有 可 能 wx 只 由 0 构成 (如 果 x = 6)。 关 于 wwy 不 是 4 的 
形式 的 论证 和 情况 0 相同。 如 果 wx 至 少 有 一 个 1， 则 我 们 能 够 注意 到 /的 长 度 至 少 为 3w2， 
并 且 一 定 以 I" 结束 ， 原 因 是 wwy 以 1" 结束。 然而 ,除了 最 后 一 段 1 之 外 不 存在 长 度 为 n 的 一 
段 1， 因 此 在 wwy 中 1: 不 可 能 重复 。 

3. 如 果 vwx 包 含 在 第 一 段 1 中 ， 则 关于 wwy 不 属于 上 的 证 明和 情况 (2) 的 第 二 部 分 类 似 。 

4. 假 设 wwx 跨 越 了 第 一 段 1 和 第 二 段 0。 如 果 vx 中 没有 0， 则 该 论证 和 wwx 处 在 第 一 段 1 中 的 情 
况 下 的 证 明 相同 。 如 果 vx 至 少 有 一 个 0， 则 wwy 以 一 段 长 麻 为 n 的 0 开头 ， 因 此 如 果 uwy = tt 
则 :也 是 如 此 。 然 而 ， 在 uwy 的 第 二 段 ! 中 不 存在 其 他 的 长 度 为 的 0 的 块 。 在 这 种 情况 下 我 
们 仍然 可 以 得 出 wwy 不 属于 L 的 结论 。 

5. 在 其 他 情况 下 ， 其 中 wwx 处 在 z 的 后 一 半 ， 则 论证 过 程 对 称 于 wwx 处 在 z 的 前 一 半 的 情况 。 

因此 ， 没 有 一 种 情况 是 wwwy 属 于 已 因此 得 出 上 不 是 上 下 文 无 关 的 结论 ; 口 


7.2.4 习题 


习题 7.2.1 用 CFL 友 引 理 来 证 明 下 面 的 语言 都 不 是 上 下 文 无 关 的 : 
xa) {abi li<j<k}. 
b) {a"b’c' li < n}, 
©) {0r1p 是 素数 }。 提 示 : 使 用 和 例 4.3 中 证 明 不 是 正则 语言 时 采用 的 相同 的 思想 。 

*! d) {OV j= P} 

te) {abc ln < i < 2n}, 

LA {wwëw 1w 是 0 和 1 的 串 }。 也 就 是 说 ， 由 某 个 串 w 和 它 的 反 向 串 再 和 它 本 身 连 接 起 来 的 串 

(比如 001100001) 构成 的 集合 。 

! 习题 7.2,2 “ 当 我 们 想 要 对 一 个 CFL /使 用 泵 引 理 时 ,“ 对 手 获胜 "， 我 们 无 法 完成 证 明 过 程 。 

给 出 当 我 们 选择 以 下 语言 作为 L 时 出 问题 的 地 方 : 
a) {00, 11}, 

*b) {0"1"| n> 1}。 

* c) 字母 表 {0, 1} 上 回 文 串 的 集合 。 

! 习题 7.2.3 ”有 一 个 比 CFL 泵 引 理 更 强 的 引 理 ， 即 奥 格 登 引 理 (Ogden's lemma), “EAR! 
理 的 不 同 之 处 在 于 : 它 允 许 我 们 在 串 z 中 选择 任意 "个 “显著 ” 的 位 置 ， 并 且 能 够 保证 被 雁 的 串 
一 定 包 含 1 到 n 个 显著 位 置 。 这 种 能 力 的 好 处 是 ， 如果 一 个 语言 的 串 可 能 由 两 部 分 构成 ， 如 果 泵 
处 在 其 中 一 部 分 可 能 并 不 会 产生 不 属于 该 语言 的 串 ， 而 对 于 另 一 部 分 来 说 则 可 能 就 会 产生 该 语 
言 之 外 的 串 。 如 果 没 有 把 泵 固定 在 后 一 部 分 发 生 的 能 力 ， 我 们 就 无 法 完成 非 上 下 文 无 关 性 的 证 
明 。 奥 格 登 引 理 的 形式 化 描述 为 ， 如 果 L 是 一 个 CFL， 则 存在 常数 使 得 :如 果 z 是 L 中 任何 二 个 
长 度 不 少 于 n 的 串 ， 那 么 就 可 以 在 z 中 选择 至 少 n 个 显著 位 置 ， 并 且 可 以 把 写作 z = uvwxy 且 使 之 
满足 : 

1. wx 至 多 有 n 个 显著 位 置 。 
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2. wx 至 少 有 1 个 显著 位 置 。 
3. 对 于 所 有 的 i，uvwxy 属 于 L。 
试 证 明 奥 格 登 引 理 。 提 示 : 该 证 明和 定理 7.18 中 砂 引 理 的 证 明 过 程 实际 上 是 相同 的 ， 只 要 我 们 假 
设 z 中 的 非 显 著 位 置 当 我 们 在 z 的 语法 分 析 树 中 选择 一 条 长 的 路 径 时 根本 不 存在 即 可 。 
* 习题 7.2.4 ”使 用 奥 格 登 引 理 (习题 7.2.3) 来 简化 例 7.21 中 关于 L = {ww 1w 属 于 {0, 1}} 不 是 
CFL 的 证 明 过 程 。 提 示 : 让 两 个 中 间 块 可 区 分 。 
习题 7.2.5 使 用 奥 格 登 引 理 (习题 7.2.3) 来 证 明 下 列 语言 不 是 CFL: 
a) {00 | j = max(i, 月 }。 
Mb) {abc li tn}, RE: 如 果 n 是 奥 格 登 引 理 的 常数 ， 考 虑 串 z= abc, 


7.3 上 下 文 无 关 语言 的 封闭 性 


接 下 来 将 会 考虑 一 些 对 于 上 下 文 无 关 语言 的 运算 ， 这 些 运算 能 够 保证 生成 的 仍然 是 CFL。 
很 多 这 里 将 要 考虑 的 封闭 性 都 与 4.2 节 中 正则 语言 的 定理 相 类 似 。 然 而 ， 它 们 之 间 也 有 些 区 别 。 

首先 ， 引 入 一 个 称 为 代 人 的 运算 ， 在 这 个 运算 中 我 们 用 一 个 完整 的 语言 来 代替 另 一 个 语言 
中 的 串 里 的 每 个 符号 。 这 个 运算 是 我 们 在 4.2.3 节 中 学 习 过 的 同 态 的 推广 ， 它 有 助 于 证 明 许多 其 
他 的 CFL 的 封闭 性 ， 例 如 正则 表达 式 运算 : 并 、 连 接 和 闭 包 。 我 们 将 证 明 CFL 在 同 态 和 逆 同 态 下 
都 是 闭 的 。 和 正则 语言 不 同 的 是 : CFL 在 交 和 差 下 不 是 六 的。 然而 ，CFL 与 正则 语言 的 交 和 差 仍 
然 是 CFL。 


7.3.1 代入 


设 3 是 一 个 字母 表 ， 并 且 假设 对 于 任何 2 中 的 符号 a， 可 以 选择 一 个 语言 L。。 这 个 语言 可 以 
包含 任何 字母 表 中 的 符号 ， 不 局 限于 3 也 不 必 都 相同 。 这 个 语言 的 选择 定义 了 一 个 2 上 的 函数 s 
(一 个 代入 )， 并且 对 于 每 个 符号 a 我 们 用 s(a) 来 表示 L。。 

如 果 w = aiara EA E 中 的 串 ， 则 s(w) 是 所 有 满足 如 下 条 件 的 zaaz 形 式 的 串 的 语言 ， 
对 于 i= 1,2,…,n， 申 属于 语言 (a)。 换 句 话说 ，s(w) 是 语言 dar) s(a2)…s(an) 的 连接 。 我 们 可 以 
进一步 扩展 s 的 定义 使 它 可 以 应 用 于 语言 : 对 于 L 中 的 所 有 串 w，s(Z) 是 s(w) 的 并 。 


例 7.22 假设 *(0) = {arb"1n>1} 且 s(1) = {aa, bb}。 也 就 是 说 ，* 是 字母 表 E = {0, 1} 上 的 一 个 
代入 。 语 言 (0) 是 由 多 于 一 个 的 e 后 面 跟着 同样 数目 的 5 构成 的 串 的 集合 ， 同 时 语言 81) 是 由 串 aa 
和 bb 构成 的 有 限 语言 。 

ew = 01。 则 s(w) 是 语言 (0)s(D) 的 连接 。 更 确切 地 说 ，s(w) 由 所 有 araa 和 ai +: 形式 的 串 构 
成 ， 其 中 m>>1。 

现在 ,假设 L = CO)， 即 所 有 仅 由 0 构成 的 串 的 集合 。 则 s(Z) = (s(0))*。 这 个 语言 是 所 有 如 下 
形式 的 串 的 集合 : 

aribria™b2 -+ abe 
对 于 某 个 t>0 以 及 任何 选择 的 正 整 数 的 序列 m,m, …, me。 它 包括 像 : £, aabbaaabbb 和 abaabbabab 
这 样 的 串 。 im 


Download at http://www.pin5i.com/ 


EFEX HHA 


197 





定理 7.23 “如 果 ! 是 字母 表 为 2 的 上 下 文 无 关 语言 ， 且 s 是 上 满足 如 下 条 件 的 代入 : 对 于 


任何 中 的 a， 有 s(@) 是 CFL。 则 s(D) 是 CFL。 


TEAR 基本 的 思想 是 : 我 们 可 以 获得 一 个 L 的 CFG， 并 且 对 于 每 个 终结 符 a， 用 语言 s(a) 的 一 
个 CFG 的 开始 符号 来 替代 它 。 这 样 所 得 的 是 一 个 产生 s(D) 的 CFG。 然 而 ， 为 了 使 这 个 想法 能 够 实 


现 还 需要 做 许多 细致 的 工作 。 


形式 化 一 些 的 说 ， 从 每 个 相关 语言 的 文法 出 发 ， 比 如 G = (V, 2, P, 5) 是 L 的 文法 且 对 于 每 
个 中 的 有 G。= (Va, Ta, Pas SJ。 由 于 我 们 可 以 给 所 需 的 变 元 取 任 何 名 字 ， 所 以 我 们 可 以 使 这 些 
变 元 的 集合 互相 分 离 。 也 就 是 说 ， 不 存在 同时 属于 两 个 或 两 个 以 上 V 或 者 V。 中 的 符号 4。 这 样 选 
择 名 字 的 目的 是 使 我 们 在 把 这 些 文法 的 产生 式 合并 为 一 个 产生 式 的 集合 时 ， 不 会 碰巧 混淆 了 两 
个 不 同文 法 中 的 产生 式 ， 因 而 也 不 就 会 具有 不 像 任 何 给 定 文法 中 推导 的 推导 。 

对 于 s(D， 我 们 构造 一 个 新 的 文法 G'= (Y.T.P, 3 如下: 


*V' 是 V 和 所 有 对 应 于 中 的 a 的 V。 的 并 。 
“7 是 所 有 对 应 于 中 的 a 的 7 的 并 。 
Pade: 

D 所 有 对 应 于 中 的 a 的 P。。 


2) P 的 产生 式 ， 只 不 过 对 于 任何 体 中 出 现 的 终结 符 a 都 用 5。 ORE 
因此 , 所 有 G' 中 的 语法 分 析 树 在 开头 的 地 方 都 和 G 中 的 语法 分 析 树 类 似 , 不 过 它 的 产物 不 属于 I, 
而 是 在 该 树 中 有 一 条 边线 ， 在 该 线 上 所 有 的 节点 的 标号 都 是 某 个 中 a 所 对 应 的 6。 并且， 从 每 
个 这 样 的 节点 都 悬挂 出 一 棵 G。 的 语法 分 析 树 ， 而 且 它 的 产物 是 语言 s(o) 中 的 终结 符 串 。 图 7-8 给 


出 了 一 棵 典型 的 这 样 的 语法 分 析 树 。 


sS 





x 7 


图 7-8 一 棵 G' 中 的 语法 分 析 树 ， 它 开始 于 一 棵 G 中 的 分 析 树 ， 结 束 于 很 多 语法 分 析 树 ， 
且 每 棵 这 种 语法 分 析 树 属于 某 个 文法 G。 


现在 ， 我 们 必须 证 明 这 个 构造 方法 确实 可 行 ， 也 就 是 说 G' 确实 产生 语言 (ZL)。 形 式 化 地 说 : 


* 串 w 属 于 KG) 当 且 仅 当 w 属 于 s(D)。 


( 当 ) 假设 w 属 于 s(D。 则 存在 某 个 串 x = waa…a 属于 L， 且 对 于 i = 1, 2, +, nsa pt Rx 
满足 w = xm…x。 则 C' 中 由 G 的 产生 式 用 3。 替 换 了 每 个 ao 之 后 的 部 分 将 会 产生 一 个 像 xz 的 串 ， 只 不 


过 在 该 串 中 所 有 的 < 都 用 S。 替换 了 。 这 个 串 是 56,5。,… 


三 角形 给 出 。 


So。w 的 推导 的 这 个 部 分 由 图 7-8 中 上 面 的 
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由 于 每 个 G。 的 产生 式 同时 也 都 是 G 的 产生 式 ， 因 此 从 Ss 到 的 推导 也 都 是 G' 中 的 推导 。 这 
些 推导 的 语法 分 析 树 由 图 7-8 中 下 面 的 三 角形 给 出 。 由 于 G 的 这 棵 语法 分 析 树 的 产物 是 xixzz…x = 
w， 因 此 得 出 结论 : w 属 于 KG?。 

( 仅 当 ) 现在 假设 w 属 于 区 G)。 我 们 将 要 证 明 w 的 语法 分 析 树 一 定 是 图 7-8 中 的 树 的 形式 。 原 
因 是 每 个 G 和 对 应 于 中 a 的 G。 的 变 元 都 是 不 相交 的 。 因 此 ， 从 变 元 5 开始 的 树 的 顶部 二 定 只 使 
用 了 G6 的 产生 式 ， 直 到 推导 出 某 个 符号 5 为 止 ， 并 且 5s 以 下 的 部 分 一 定 只 使 用 了 文法 G, 的 产生 
式 。 结 果 是 ， 只 要 w 有 一 棵 语法 分 析 树 7， 我 们 就 可 以 确定 一 个 L(G) 中 的 串 aia…as， 以 及 语言 
sa) PEI Rx, WE: 

Iw=xp… 加 ， 并且 

2. 串 So3Sa…Sw 是 一 棵 从 7 中 删 掉 一 些 子 树 之 后 所 得 的 树 的 产物 (如 图 7-8 所 示 )。 

(BÆ Rxx 属于 s(Z)， 原 因 是 它 是 用 串 x 代替 每 个 ai 之 后 所 得 到 的 。 因 此 得 出 结论 ! w 属 于 
SCD)。 口 


7.3.2 代入 定理 的 应 用 


用 定理 7.23 能 证 明 很 多 CFL 的 封闭 性 ， 因 为 我 们 已 经 在 正则 语言 中 学 习 过 这 些 性 质 所 以 比较 
熟悉 。 我 们 将 在 一 个 定理 中 把 它们 全 列 出 来 。 


定理 7.24 上 下 文 无 关 语 言 在 以 下 运算 下 是 封闭 的 : 

1. 并 。 

2. 连接 。 

3. 闭 包 (7 和 正 闭 包 (+ )。 

4. 同 态 。 

证 明 以 上 每 个 的 证 明 都 只 需 我 们 建立 合适 的 代入 。 下 面 每 条 证 明 都 只 是 把 一 个 上 下 文 无 关 

语言 代入 另 一 个 上 下 文 无 关 语 言 中 ， 因 而 根据 定理 7.23 可 知 所 得 到 的 仍然 是 CFL。 

Lf: 设 L 和 LL 都 是 CFL， 则 LiUL: 是 语言 s(L)， 其 中 是 语言 {1, 2}， 且 代入 s 的 定义 为 : 
s(1)=Li, s(2) = La 

2. 连接 : PFKIRLFILABAECFL, WLLAÆ ESL), PLEA), BARA SHE CAN 
情况 (1) 中 相同 。 

3. 闭 包 和 正 闭 包 : 设 Ll 是 CFL,L 是 语言 {1}， 且 s 是 代入 s(1) =L, WL = xD。 类 似 地 ， 如 
果 L 是 语言 {1}* ， 则 Li* =s). 

4, 假 设 L 是 字母 表 了 上 的 CFL， 且 /是 上 的 同 态 。 设 :是 一 个 代入 ， 且 它 把 每 个 了 中 的 符号 
4 用 只 有 一 个 串 h(a) 的 语言 来 代替 。 也 就 是 说 ， 对 于 所 有 中 的 a， 有 s(a) = {h(a)}。 则 h(L) 
=s(L). 口 


7.3.3 反 转 


CFL 在 反 转运 算 下 也 是 封闭 的 。 我 们 不 能 使 用 代入 定理 ， 但 有 一 个 使 用 文法 的 简单 构造 
方法 。 
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定理 7.25 如 果 L 是 CFL， 则 严 也 是 。 

证 明 iL = L(G), HG = (V, T, P, 5) 是 某 个 CFL。 构 造 G* = (V, T, Pe, 5)， 其 中 Pr 是 每 个 P 
中 产生 式 的 “ 反 转 "。 也 就 是 说 ， 如 果 4 一 o 是 G 的 一 个 产生 式 ， 则 4 一 wx 是 G* 的 一 个 产生 式 。 很 
容易 通过 对 G 和 G* 中 推导 的 长 度 进行 归纳 来 证 明 区 G9) = L*。 实 质 上 ， 所 有 G* 的 句 型 都 是 G6 的 句 
型 的 反 转 ， 反 之 亦 然 。 我 们 把 该 定理 的 形式 化 证 明 留 作 习 题 。 口 


7.3.4 与 正则 语言 的 交 
CFL 在 交 运算 下 不 封闭 。 下 面 是 一 个 说 明 它 不 封闭 的 简单 例子 。 


例 7.26 我 们 从 例 7.19 中 知道 语言 
L={0"1"2"In>1} 
不 是 上 下 文 无 关 语言 。 然 而 ， 下 面 的 两 个 语言 都 是 上 下 文 无 关 的 ， 
L={0Xin>1,i>1} 
L= {0'1'2" In>1,i>1} 
LIA SHE: 
SAB 
A—0A1 101 
B 一 2B12 
在 这 个 文法 中 ，A 产 生 所 有 0"1" 形 式 的 曲 ，B 产 生 所 有 的 2 的 串 。L 的 一 个 文法 是 : 
S 一 4B 
A=0A10 
B= 1B21 12 
ENEMA, RREH ERAR, BEERA AAR., 
然而 , L= LiNL2。 原 因 很 简单 ， 只 要 注意 到 LL 要求 Oo 和 1 的 个 数 相同 ， 而 L 要 求 相 同 数目 的 1 
和 2。 因 此 一 个 同时 属于 这 两 个 语言 的 串 一 定 具有 相同 数目 的 全 部 三 个 字符 ， 因 而 一 定 属于 L。 
如 果 CFL 在 交 运 算 下 封闭 ， 则 能 够 证 明 L 是 上 下 文 无 关 的 ， 但 其 实 它 是 一 个 为 假 的 命题 
此 得 出 结论 ，CFL 在 交 运 算 下 不 封闭 。 o 


另 一 方面 ， 对 于 交 运 算 来 说 存在 一 个 较 弱 的 结论 : 上 下 文 无 关 语言 在 “与 一 个 正则 语言 求 
交 ” 的 运算 下 是 封闭 的 。 下 面 的 定理 给 出 了 形式 化 的 陈述 和 证 明 。 


定理 7.27 如 果 L 是 CFL 且 R 是 正则 语言 ， 则 LNR 是 CFL。 

证 明 ”该 定理 的 证 明 需 要 CFL 的 下 推 自动 机 表示 ,以 及 正则 语言 的 有 穷 自 动机 表示 ， 另 外 还 
有 定理 4.8 证 明 的 推广 ， 在 该 定理 中 我 们 “并 行 地 ”运行 两 台 有 穷 自动 机 来 获得 它们 语言 的 交 。 
这 里 ， 我们“ 并行 地 ”运行 一 台 有 穷 自 动机 和 一 个 PDA， 而 所 得 的 结果 是 另 一 个 PDA， 如 图 7-9 
所 示 。 
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图 7-9 并 行 地 运行 一 个 PDA 和 一 个 FA 来 创建 一 个 新 的 PDA 
形式 化 地 ， 设 
P=(Qr, £,T, ôr, qr, Zo, Fr) 
是 一 个 以 终结 状态 方式 接受 L 的 PDA， 并 且 设 
A=(Qa, E, Ôn qa, Fa) 
是 一 个 R 的 DFA。 构 造 PDA 
P'=(Qr x Qu, E, T, ô, (qr, qa), Zo, Fp x Fa) 

FERC, p), a, 加 定义 为 所 有 满足 如 下 条 件 的 对 ((7, 5), 力 : 

1. s=ô,(p,a), JFE 

2.39407, DIF ôq, a, X). 
也 就 是 说 ， 对 于 PDA P 的 每 步 移动 ， 我 们 都 可 以 在 PDA P' 中 做 相同 的 移动 ， 并 且 在 P 的 状态 的 第 
二 个 分 量 始终 保持 为 DFA 4 的 状态 。 注 意 ，a 或 者 是 中 的 一 个 符号 或 者 是 e。 在 前 面 的 情况 
下 ，6(p,a) =6,(p,a)， 如 果 a = ell 6(p,a) = ps 也 就 是 说 ， 当 P 对 于 e 输 入 做 移动 时 4 不 改变 状态 。 

很 容易 通过 对 PDA 执 行动 作 的 数量 进行 归纳 来 证 明 有 (qr, w, Zo) K (q. e 力 当 且 仅 当 有 
(ar, qa), w, Zo) F(p), IEP p= 5(q,.w) 。 我 们 把 这 些 归纳 留 作 习 题 。 因 为 (9,p) 是 P 的 
接受 状态 当 且 仅 当 4 是 P 的 接受 状态 ， 且 p 是 4 的 接受 状态 ， 因 此 得 出 结论 ; P' 接 受 w 当 且 仅 当 P 
和 A 都 接受 w， 即 w 属 于 LNR。 o 


例 7.28 ”在 图 6-6 中 我 们 设计 了 叫做 F 的 PDA， 它 能 够 以 终结 状态 方式 接受 如 下 语言 :对 于 if 
和 else 能 够 在 C 程 序 中 出 现 次 序 的 规则 ， 该 语言 中 的 串 为 最 小 的 违反 这 些 规则 的 由 闭 le 构 成 的 串 。 
称 该 语言 为 L。PDA 的 定义 为 


Pr =({p, q.r}, {i,e}, {Z, Xo}, ôr, p, Xo, {r}) 
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其 中 6 由 以 下 规则 构成 : 

1. dep, €, Xo) = {(q, ZX0)}。 

2. x(q, i, Z) = {(q,2D)}。 

3. O(q, e, Z) = {(4, Oh. 

4. 6r(q, £, Xo) = {(7, ho 

现在 ， 引 入 一 个 有 穷 自动 机 

A=({s, 1}, {i, e}, ôn, $, {8, 0) 

它 能 够 接受 所 有 语言 ze" 中 的 串 ， 也 就 是 所 有 ;后 面 跟着 e 这 种 形式 的 串 。 称 这 个 语言 为 R。 转 移 
函数 6 由 以 下 规则 给 出 : 

a) O(s, i) = 5。 

b) dx(s,e) =f, 

c) lt,€) =t, 
严格 地 说 ， 就 像 定理 7.27 中 所 假定 的 那样 ，4 并 不 是 个 DEFA ， 原 因 是 当 处 在 状态 ! 且 看 到 的 输入 
为 时 缺少 一 个 死 状态 。 然 而 ， 对 于 NFA 来 说 构造 过 程 是 相同 的 ， 因 为 我 们 构造 的 PDA 可 以 是 非 
确定 型 的 。 在 这 种 情况 下 ， 构 造 出 的 PDA 实 际 上 是 确定 型 的 ， 尽 管 它 对 于 某 些 输入 序列 会 “ 死 
机 ”。 

我 们 将 会 构造 一 个 PDA 

P= ({p,q,r} x {s,1}, {i,e}, {Z, Xo}, ô, (p, s), Xo, {r} x {s, 1}) 

以 下 是 根据 PDA F 的 规则 (从 1 到 4 的 数字 ) 和 DFA 4 的 规则 (字母 a, bite) 编号 的 转移 函数 5。 
在 PDA D 做 转移 时 并 不 使 用 4 的 规则 。 注 意 ， 我 们 以 一 种 “偷懒 的 ”方式 来 构造 这 些 规则 ， 从 PP 
的 状态 出 发 (该 状态 同时 也 是 F 和 A 的 开始 状态 ) ， 并 且 仅 当 我 们 发 现 P 能 够 进入 的 F 和 A 的 状态 对 
时 为 其 他 状态 构造 规则 。 

1: (P, 5), €, Xo) = {((q, 8), ZXo)} o 

2a: &(q, s), i, Z) = {((q, 8), ZZ}. 

3b: &(q, s), e, Z) = {((q,), Oho 

4: XG, s), E, Xo) = {((r, 5s), ho TEM: 其 实 可 以 证 明 这 条 规则 是 永远 无 法 使 用 的 。 原 因 是 看 

不 到 e 时 不 可 能 从 堆栈 中 弹出 ， 而 一 旦 P 看 到 e， 它 的 状态 的 第 二 个 分 量 就 会 变 成 1。 

3c: (9,1), €,2)={((4,0), }. 

4: 64,0, e, Xo) = {((7,D), ho 

语言 LNR 是 若干 个 i 后 面 跟着 比 它 多 一 个 的 e 的 串 的 集合 ， 即 {i"e"*' 1 n>>0}。 该 集合 正 是 由 
这 种 违反 让 else 规 则 的 串 构成 的 : 一 段 的 让 后 面 是 一 段 的 else。 该 语言 明显 是 CFL， 由 具有 产生 式 
5 一 iSe1e 的 文法 产生 。 

TEM, PDA P 接 受 语言 LNR。 在 把 Z 压 人 堆栈 之 后 , 它 对 于 输入 的 i 的 反应 是 压 信 更 多 的 Z， 
同时 保持 在 状态 (q, s)。 一 旦 它 看 到 一 个 e， 它 就 转 到 状态 (q, 同时 开始 从 堆栈 中 弹出 。 在 % 暴 露 
在 栈 顶 之 前 如 果 它 看 到 了 e 就 会 死机 。 此 时 ， 它 自发 地 转移 到 状态 (7, 0 同时 接受 。 o 


由 于 已 知 CFL 在 交 运 算 下 不 封闭 ， 但 是 在 与 正则 语言 的 交 运算 下 是 封闭 的 ， 由 此 可 知 CFL 的 
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集合 差 以 及 补 运算 。 下 面 的 定理 总 结 了 这 些 性 质 。 


定理 7.29 下 面 的 结论 对 于 CFL L, 和 以 及 正则 语言 R 都 是 成 立 的 。 

1,L 一 R 是 上 下 文 无 关 语 言 。 

2. 工 不 一 定 是 上 下 文 无 关 语言 。 

3. 世 一 不 一 定 是 上 下 文 无 关 的 。 

证 明 FO), 注意 到 LL 一 R = LNR。 如 果 R 是 正则 的 ， 则 由 定理 4.5 知 下 也 是 正则 的 。 则 
由 定理 7.27 知 一 R 是 CFL。 

FQ), 假设 当 L 是 上 下 文 无 关 的 时 工 总 是 上 下 文 无 关 的 。 则 由 于 

LOL, -FUE 
并 且 CFL 在 并 运算 下 是 封闭 的 ， 因 此 可 得 CFL 在 交 运 算 下 也 是 封闭 的 。 然 而 ， 我 们 已 经 由 例 7.26 
中 得 知 它 并 不 是 。 

最 后 ， 来 证 明 (3)。 已 知 对 于 任何 字母 表 了 来 说 5" 都 是 CFL， 给 这 个 正则 语言 设计 一 个 文法 
或 者 PDA 是 很 容易 的 。 因 此 ， 如 果 当 五 和 Lz 都 是 CFL 时 ZL 一 Lo 总 是 CFL， 那 么 可 以 得 出 当 L 是 CFL 
时 Z* 一 L 也 总 是 CFL。 然 而 ， 当 我 们 选择 了 合适 的 字母 表 时 2* 一 L 就 是 工 。 因 此 ， 同 (2) 相 矛盾 ， 
由 此 矛盾 证 明了 Li 一 不 一 定 是 CFL。 口 


7.3.5 逆 同 态 


现在 来 回顾 4.2.4 节 中 称 为 “ 逆 同 态 ” 的 运算 。 如 果 h 是 一 个 同 态 ， 且 L 是 任何 语言 ， 则 -1(L) 
是 所 有 满足 how) 属 于 Z 的 串 w 的 集合 。 图 4-6 给 出 了 关于 正则 语言 在 逆 同 态 运算 下 的 封闭 性 的 证 明 。 
当时 ， 我 们 设计 了 一 个 有 穷 自 动机 ， 它 在 其 输入 上 应 用 了 一 个 同 态 &， 因 此 能 够 模拟 另 一 个 输入 
序列 为 h(a) 的 有 穷 自 动机 。 

我 们 可 以 用 非常 类 似 的 方法 来 证 明 CFL 的 这 种 封闭 性 ， 只 不 过 使 用 PDA 来 代替 有 穷 自动 机 。 
然而 ， 当 我 们 使 用 PDA 时 会 有 一 个 在 使 用 有 穷 自 动机 时 不 会 出 现 的 问题 。 有 穷 自动 机 对 于 一 系 
列 的 输入 的 反应 是 状态 转移 ， 因 而 我 们 所 关心 的 构造 出 来 的 自动 机 看 上 去 就 像 有 穷 自动 机 在 一 
个 输入 符号 时 的 一 步 移动 。 

当 该 自动 机 是 PDA 时 ， 情 况 就 不 同 了 ， 一 系列 的 移动 可 能 看 上 去 不 像 一 个 输入 符号 下 的 一 
步 移动 。 特 别 是， 做 ?个 移动 时 ，PDA 可 以 从 它 的 堆栈 中 弹出 "个 符号 ， 而 一 个 移动 只 能 弹出 一 
个 符号 。 因 此 ， 类 似 于 图 4-6 中 构造 过 程 的 PDA 的 构造 过 程 在 相 比 之 下 就 有 些 复杂 了 ， 图 7-10 是 
一 个 框架 图 。 关 键 的 思想 是 ， 当 读 入 了 输入 符号 a 以 后 ， 把 h(a) 放 和 人 “缓冲 区 ”。h(a) 中 的 符号 一 
次 一 个 地 被 读 人 ， 然 后 传 给 被 模拟 的 PDA。 只 有 当 该 缓冲 区 为 空 时 该 构造 的 PDA 才 读 入 它 的 另 
一 个 输入 符号 同时 对 它 应 用 同 态 运算 。 我 们 将 在 下 一 个 定理 中 形式 化 地 刻画 该 构造 过 程 。 


定理 7.30 设 Z 是 CFL， 且 1 是 同 态 ， 则 /2:(D 是 CFL。 

证 明 ”假设 把 /应 用 于 字母 表 中 的 符号 并 且 得 到 中 的 串 。 假 设 L 是 字母 表 T 上 的 语言 。 就 
像 上 面 提 到 的 那样 ， 我 们 从 一 个 以 终结 状态 方式 接受 L 的 PDA P= (Q, 7, T, 8, qo, Zo, FY RICHY 
造 一 个 新 的 PDA: 
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接受 /拒绝 








图 7-10 构造 一 个 PDA， 它 接受 的 是 一 个 给 定 的 PDA 所 接受 的 逆 同 态 


P'=(Q', 2,T,6, (qo, £), Zo, F X {£}) (7-1) 
其 中 ， 
1.C 是 满足 以 下 条 件 的 (9, 习 对 的 集合 : 
(a) 9 是 C 中 的 状态 ， 且 
(b) x 是 与 某 个 中 的 符号 a 相对 应 的 串 h(a) 的 前 级 (不 一 定 是 真 前 组 ) 。 
也 就 是 说 ，P' 的 状态 的 第 一 部 分 是 P 的 状态 ， 而 第 二 部 分 是 缓冲 区 。 我 们 假设 该 缓冲 区 会 
被 周期 性 地 装 入 捉 h(a)， 接 着 当 我 们 用 它 里 面 的 符号 来 作为 被 模拟 的 PDA P 的 输入 时 ， 它 
可 以 从 它 的 前 部 输出 以 及 去 除 符号 。 注 意 ， 因 为 2 是 有 限 的 ， 且 对 于 每 个 a 来 说 h(a) 也 都 
是 有 限 的 ， 因 此 P' 只 有 有 限 个 状态 。 
2.5' 的 定义 由 以 下 规则 组 成 : 
(a) 对 于 所 有 中 的 符号 se、 所 有 Q 中 的 状态 q 以 及 I 中 的 堆栈 符号 X 有 6K(q, €), a,X) = (gq, 
ha), )}。 注 意 此 处 的 a 不 能 为 。 当 缓冲 区 为 空 时 ，P' 就 可 以 消耗 它 的 下 一 个 输入 符 
号 a 同时 把 h(a) 放 入 缓冲 区 。 
(b) MRA b OUAP, 力 ， 其 中 5 属于 7 或 者 = s， 则 
Ô'((q, bx), £, X) 
包含 ((p, 1), Yo TRE, PATER EA CA h AU ATA LPH — A eh, A 
果 b 是 7 中 的 一 个 符号 ， 则 该 缓冲 区 不 能 为 空 ， 但 是 如 果 b=e 的话， 则 该 缓冲 区 可 以 为 空 。 
3. 注 意 ， 正 如 式 (7-1) 中 定义 的 那样 ，P' 的 开始 状态 是 (qo, )， 也 就 是 说 ，P' 开始 于 P 的 开始 
状态 以 及 一 个 空 的 缓冲 区 。 
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4. 同样 ， 按 照 式 (7-1) 的 定义 ，P' 的 接受 状态 是 满足 如 下 条 件 的 状态 (9, ©): 其 中 的 9 是 P 的 某 
个 接受 状态 。 
下 面 的 命题 刻画 了 P' 和 P 之 间 的 关系 : 


* qo, hw), Zo) ke (p, €, Y) HHIH Cgo, £), w, Zo) E (p, £), E, Do 


两 个 方向 的 证 明 都 是 通过 对 这 两 个 自动 机 所 做 的 移动 的 数目 进行 归纳 来 完成 的 。 在 “ 当 ” 的 部 
分 中 ， 需 要 注意 的 是 : 一旦 P' 的 缓冲 区 非 空 ， 它 就 不 能 继续 读 和 输入 且 只 能 模拟 P， 直 到 该 缓冲 
区 再 次 为 空 (尽管 缓冲 区 为 空 时 ， 它 仍然 可 以 模拟 P)。 我 们 把 进一步 的 证 明细 节 留 作 习题 。 

一 旦 我 们 接受 了 P' 与 P 之 间 的 关系 ， 我 们 就 能 够 注意 到 P 接 受 h(w) 当 且 仅 当 P 接 受 w， 原 因由 
我 们 定义 P 的 接受 状态 的 方式 可 知 。 因 此 有 Z(P) = h7!(L(P))。 口 


7.3.6 习题 


习题 7.3.1 证 明 CFL 在 下 列 运算 下 的 封闭 性 ; 
* a) 习题 4.2.6(c) 中 定义 的 init 运 算 。 提 示 : 从 语言 L 的 CNF 文 法 出 发 。 
所 b) 习题 4.2.2 中 定义 的 Wa 运算 。 提 示 : 从 语言 [的 CNF 文 法 出 发 。 
Wc) 习题 42.11 中 定义 的 cycle 运 算 。 提 示 : 试 试 基于 PDA 的 构造 过 程 。 
习题 7.3.2 考虑 以 下 两 个 语言 : 
Ly = {a"b*c" | n, m>0} 
La = {arbrcm | n, m>0} 
a) 通过 分 别 给 出 上 述 语言 的 文法 来 证 明 这 些 语言 都 是 上 下 文 无 关 的 。 
!b) Zimzz 是 CFG 吗 ? 证 明 你 的 结论 的 正确 性 。 
!! 习 题 7.3.3 证 明 CFL 在 下 列 运 算 下 不 封闭 : 
* a) 习题 4.2.6(a) 中 定义 的 min 运 算 。 
b) 习题 4.2.6(b) 中 定义 的 max 运 算 。 
©) 习题 42.8 中 定义 的 hay 运算 。 
d 习题 4.2.7 中 定义 的 alt 运 算 。 
习题 7.3.4 FAT WALA in (shuffle) 是 指 所 有 能 够 由 任意 的 把 w 和 x 互相 插入 所 得 的 申 
的 集合 。 更 加 确切 地 说 ，shufjie(w, 习 是 满足 下 列 条 件 的 串 z 的 集合 ; 
1. 每 个 z 中 的 位 置 都 可 以 分 配给 w 或 者 +， 但 不 能 同时 分 配给 两 者 
2. z 中 分 配给 w 的 位 置 从 左 到 右 连 起 来 就 构成 了 w。 
3. z 中 分 配给 x 的 位置 从 左 到 右 连 起 来 就 构成 了 x。 
例如 ， 如 果 w = 01 且 x = 110， 则 shwffe(01, 110) 是 串 的 集合 : {01110, 01101, 10110, 10101, 11010, 
11001}。 下 面 来 说 明理 由 ， 比 如 第 四 个 串 10101， 可 以 由 以 下 方式 来 验证 : 它 的 2 和 5 的 位 置 属于 
01, 1, 3 和 4 的 位 置 属于 110。 而 第 一 个 串 01110 有 三 种 验证 方式 把 位 置 1 和 2 或 3 或 4 分 配给 01， 
剩 下 的 三 个 位 置 分 配给 110。 也 可 以 定义 语言 的 重组 safe(D 也 ) 为 对 所 有 中 的 串 w 以 及 L 中 的 
串 x， 由 shufze(w, 习 的 并 构成 的 语言 。 
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a) shuffle(00, 111) 是 什么 ? 
* b) WÈL = LO) La ={01"1n>0}, Milshuffle(Li, Li At Za? 
Sc) TEM: WRAL EES, Wishuffle(Li, LEEW. RE: ML AIL ADEA 
出 发 。 
14) 证 明 : 如 果 L 是 CFL 且 R 是 正则 语言 ， 则 shwhe(L, R) 是 CFL。 提 示 : 从 L 的 PDA 和 R 的 DFA 
出 发 。 
!16) 给 出 一 个 反例 证 明 : 如 果 二 和 Lz 都 是 CFL， 则 shwfhe(L1, 12) 不 一 定 是 CFL。 
*1! 习题 7.3.5” 串 ?被 称 为 另 一 个 串 x 的 置换 (permutation)， 如 果 可 以 通过 把 y 中 的 符号 经 过 重新 排 
列 后 得 到 x。 例 如 ， 串 x = 011 的 置换 为 110, 101 和 011。 如 果 Z 是 一 个 语言 ， 则 perm(D) 是 所 有 Z 中 的 
申 的 置换 的 集合 。 例 如 ， 若 L = {O"l"1n>0}， 则 perm(D) 是 具有 相同 数目 的 0 和 和 1 的 串 的 集合 。 
a) 给 出 一 个 使 得 perm(D) 不 是 正则 的 字母 表 {0, 1} 上 的 正则 语言 的 例子 。 证 明 结果 的 正确 性 。 
提示 : 试 着 找到 一 个 置换 为 全 部 具有 相同 数目 的 0 和 和 1 的 串 的 正则 语言 。 
b) 给 出 一 个 使 得 perm(D) 不 是 上 下 文 无 关 的 字母 表 {0, 1,2}? 上 的 正则 语言 的 例子 。 
证明 :对 于 两 个 符号 的 字母 表 上 的 每 个 正则 语言 L，perm(D) 是 上 下 文 无 关 的 。 
习题 7.3.6 给 出 定理 7.25 的 形式 化 证 明 : CFL 在 反 转 运算 下 是 封闭 的 。 
习题 7.3.7 通过 证 明 以 下 结论 来 完成 定理 7.27 的 证 明 ， 
(ar, w, Zo) Kg, £, 7) 
HERA, qa), w, Zo) k (ap), e), 其中 P= 5(P.¥), 


7.4 ”CFL 的 判定 性 质 


现在 ， 考 虑 对 于 上 下 文 无 关 语 言 来 说 能 够 回答 哪些 类 型 的 问题 。 类 似 于 关于 正则 语言 的 判 
定性 质 的 4.3 节 ， 问 题 的 出 发 点 总 是 CFL 的 某 种 表示 一 文法 或 者 PDA。 由 于 从 6.3 节 知道 可 以 在 
文法 和 自动 机 之 间 相互 转化 ， 因 此 可 以 假定 给 出 的 是 任何 CFL 的 表示 ， 只 要 方便 即 可 。 

读者 将 会 发 现 对 于 CFL 来 说 只 有 很 少 的 东西 能 够 被 判定 ， 我 们 能 够 做 的 最 重要 的 事情 就 是 
判断 一 个 语言 是 否 为 空 以 及 一 个 给 定 的 串 是 否 属于 该 语言 。 因 此 在 本 节 结 束 时 将 给 出 一 个 简单 
的 讨论 ， 该 讨论 是 关于 将 在 后 面 .( 第 9 章 ) 证 明 为 “不 可 判定 的 ”那些 类 的 问题 的 ， 也 就 是 说 ， 
不 存在 解决 它们 的 算法 本 节 的 内 容 。 从 关于 一 个 语言 的 文法 和 PDA 表 示 之 间 互 相 转 化 的 复杂 性 
的 事实 开始 。 对 于 一 个 CFL 的 给 定 的 表示 来 说 ， 判 断 任何 该 CFL 性 质 的 效率 总 是 会 牵扯 到 上 面 的 
这 些 考虑 。 


7.4.1 在 CFG 和 PDA 之 间 互 相 转 化 的 复杂 性 


在 开始 考虑 CFL 的 判定 问题 的 算法 之 前 ， 先 来 考虑 一 下 从 一 种 表示 到 另 一 种 表示 的 转化 的 
复杂 性 。 当 给 定 一 个 判定 算法 时 ， 如 果 给 出 该 语言 的 形式 和 该 算法 所 需 的 形式 不 同 ， 那 么 这 个 
转化 过 程 的 运行 时 间 总 是 该 判定 算法 的 代价 的 一 部 分 。 

在 下 文中 ， 设 "为 整个 PDA 或 者 CFG 的 表示 的 长 度 。 用 这 个 参数 来 作为 文法 或 自动 机 的 大 小 
的 表示 是 比较 “粗糙 ”的 。 之 所 以 这 么 说 ， 原 因 是 某 些 算法 的 运行 时 间 如 果 用 更 加 详细 的 参数 
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来 刻画 将 会 更 加 精确 ， 这 些 参 数 比如 : 文法 中 变 元 的 数目 ，PDA 中 转移 函数 中 出 现 的 堆栈 符号 
串 的 长 度 之 和 等 。 

然而 ， 评 测 总 长 度 的 方式 对 于 辨别 最 重要 的 问题 来 说 已 经 足够 了 ， 这 里 所 说 的 最 重要 的 问 
题 是 : 一 个 算法 是 否 和 输入 长 度 成 线性 关系 (也 就 是 说 ， 当 输入 长 度 增加 时 ， 它 运行 的 时 间 是 
否 增加 的 更 快 )， 是 否 和 长 度 成 指数 关系 (也 就 是 说 ， 你 只 能 对 很 小 规模 的 实例 做 转化 ) ， 或 着 
它 是 否 是 某 个 非 线性 多 项 式 (也 就 是 说 ， 你 可 以 运行 该 算法 ， 即 使 是 很 大 的 实例 也 可 以 ， 只 不 
过 所 需 的 时 间 将 会 相当 长 )。 

至 此 已 经 见 到 过 很 多 与 输入 的 大 小 成 线性 的 转化 。 由 于 它们 只 需要 线性 时 间 ， 因 此 它们 作 
为 输出 产生 的 表示 的 产生 速度 很 快 ， 而 且 产生 输出 的 大 小 也 和 输入 大 小 可 比 。 这 些 转化 为 

1. 通 过 定理 6.13 中 的 算法 把 CFG 转 化 为 PDA。 

2. 通 过 定理 6.11 中 的 构造 方法 来 把 以 终结 状态 方式 接受 的 PDA 转 化 为 以 空 栈 方式 接受 的 

PDA。 

3. 通过 定理 6.9 中 的 构造 方法 来 把 以 空 栈 方式 接受 的 PDA 转 化 为 以 终结 状态 方式 接受 的 PDA。 

另 一 方面 ， 把 PDA 转 化 为 文法 (定理 6.14) 的 运行 时 间 比 较 复杂 。 首 先 ， 注意， 输入 的 总 长 
度 " 显 然 是 状态 和 堆栈 符号 数 的 上 界 , 因此 为 文法 构造 出 的 [pX9g] 形 式 的 变 元 不 会 超过 必 个 。 然 而 ， 
如 果 该 PDA 中 存在 把 大 量 符号 放 入 堆栈 中 的 转移 ， 则 该 转化 过 程 的 运行 时 间 可 以 是 指数 的 。 注 
意 一 个 规则 最 多 可 以 把 x 个 符号 放 入 堆栈 中 。 

如 果 从 一 个 “6(q, a, 加 包含 (ro, YiY…YD” 形 式 的 规则 来 回顾 文法 产生 式 的 构造 过 程 ， 就 会 
注意 到 这 将 引出 一 组 [9Xm 一 [ayim] [Yar] arn ERER, Hp, 73,…, ri 可 以 是 所 有 
状态 的 列表 。 由 于 k 可 以 接近 于 n， 而 且 可 以 有 接近 于 n 个 状态 ， 因 此 总 的 产生 式 的 数目 可 以 达到 
"的 规模 。 哪 怕 某 个 PDA 只 要 写 一 个 长 的 堆栈 符号 囊 ， 我 们 都 无 法 完成 这 样 的 一 般 规模 的 PDA 
的 构造 过 程 。 

幸运 的 是 ， 这 种 最 坏 情况 永远 都 不 必要 发 生 。 就 像 习 题 6.2.8 中 所 说 ， 可 以 把 对 长 的 堆栈 符 
号 串 的 依次 压 人 打 断 为 一 系列 最 多 n 步 的 每 次 压 入 一 个 符号 的 序列 。 也 就 是 说 ， 如 果 5g, a, 加 包 
Elro, 世态 一 欧 ， 那 么 就 可 以 引入 新 状态 px, ps,…, Peis 接着， 用 (ph Y YDRE, a, 中 
的 (mo, 蕊 太 … 欧 ， 同 时 引入 新 的 转移 

pe, E, Yii) = {Pras Yi-¥i-1)}, pa, E, Yia) = {(pi-s, Yr-aYi 2)} 
等 等 ， 直 到 6(p, e, Y2) = {(ro, YiY:)}, 

现在 ， 所 有 的 转移 都 不 包含 多 于 两 个 的 堆栈 符号 。 我 们 已 经 增加 了 至 多 n 个 新 状态 ， 同 时 所 
有 6 的 转移 规则 的 长 度 之 和 至 多 增加 了 一 个 常数 因子 ， 也 就 是 说 它 仍然 是 0(n)。 一 共有 O(n) 条 转 
移 规则 ， 每 个 能 够 产生 OU 个 产生 式 ， 原 因 是 从 每 个 规则 生成 产生 式 时 只 需要 选择 两 个 状态 即 
可 。 因 此 ， 构 造 出 的 文法 的 长 度 为 Oo)， 并 且 能 够 在 立方 时 间 内 被 构造 出 来 。 我 们 用 下 面 的 定 
理 来 总 结 上 面 非 形式 化 的 分 析 过 程 。 


定理 7.31 存在 把 其 表示 的 长 度 为 n 的 PDA P 转 化 为 长 度 至 多 为 O(m) 的 CFG 的 O(n 算法。 该 
CFG 产 生 的 是 和 P 以 空 栈 方式 接受 的 语言 相同 的 语言 。 同 样 也 可 以 选择 让 G 产 生 和 P 以 终结 状态 
方式 接受 的 语言 相同 的 语言 。 D 
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7.4.2 变换 到 乔 姆 斯 基 范 式 的 运行 时 间 


由 于 判定 算法 可 能 首先 依赖 于 把 一 个 CFG 变 为 乔 姆 斯 基 范式 ， 因 此 我 们 也 应 该 考虑 一 下 已 
经 介绍 过 的 把 任意 的 文法 转化 为 CNF 文 法 的 多 种 算法 的 运行 时 间 。 它 们 中 的 很 多 步骤 都 只 和 文 
法 的 描述 的 长 度 相差 一 个 常数 因子 : 也 就 是 说 ， 从 一 个 长 度 为 m 的 文法 出 发 ， 它 们 能 够 生成 另 一 
个 长 度 为 O(n) 的 文法 。 下 面 的 事实 列表 总 结 了 这 些 好 的 方面 : 

1. 使 用 合适 的 算法 〈 见 7.4.3 节 ) 可 以 在 O(n) 时 间 内 检测 一 个 文法 的 可 达 符 号 和 产生 符号 。 

去 除 所 得 到 的 无 用 符号 需要 O(n) 的 时 间 ， 并 且 不 会 增加 文法 的 大 小 。 

2.7.1.4 节 中 构造 单位 对 和 去 除 单位 产生 式 的 算法 需要 O(n) 的 时 间 ， 并 且 导 致 长 度 为 0(m?) 的 

文法 。 

3.7.1.5 节 ( 乔 姆 斯 基 范 式 ) 中 用 产生 式 体 中 的 变 元 来 代替 终结 符 的 算法 需要 O(n) 的 时 间 ， 

并 且 导致 长 度 为 O(n) 的 文法 。 
4.7.1.5 节 中 使 用 的 把 产生 式 的 体 打 断 为 长 度 为 3 的 体 或 者 更 进一步 地 打 断 为 长 度 为 2 的 体 需 
要 的 时 间 也 是 O(n)， 且 所 得 文法 的 长 度 为 O(n)。 

坏 的 方面 包括 7.1.3 节 中 的 去 除 e 产 生 式 的 构造 过 程 。 如 果 有 长 度 为 k 的 产生 式 体 ， 可 以 从 这 
个 产生 式 构造 出 新 文法 的 2: 一 1 个 产生 式 。 因 为 可 以 正比 于 n， 构 造 过 程 的 这 一 部 分 可 能 需要 
0O(2") 的 时 间 ， 并 且 导 致 长 度 为 0(2") 的 文法 。 

为 了 避免 这 个 指数 增长 ， 只 需要 限定 产生 式 体 的 长 度 即 可 。7.1.5 节 的 技巧 可 以 应 用 于 任何 
产生 式 体 ， 而 不 仅 限于 没有 终结 符 的 那 种 。 因 此 ， 我 们 推荐 把 所 有 体 比较 长 的 产生 式 都 打 断 为 
体 的 长 度 为 2 的 一 系列 产生 式 ， 并 且 以 此 来 作为 去 除 e 产 生 式 之 前 的 预备 工作 。 这 步 需 要 O(n) 的 
时 间 ， 并 且 线 性 地 增加 文法 的 长 度 。 这 样 ，7.1.3 节 的 去 除 e 产 生 式 的 构造 过 程 将 只 对 体 的 长 度 至 
多 为 2 的 产生 式 进 行 处 理 ， 在 这 样 的 工作 方式 下 ， 该 算法 的 运行 时 间 是 O(n)， 并 且 产生 文法 的 长 
度 也 是 O(n)。 

经 过 对 整个 CNF 构 造 过 程 进 行 如 上 修改 之 后 ， 其 中 惟一 不 是 线性 的 步 难 就 是 去 除 单位 产生 
AOS, FARO, RUA FE: 


定理 7.32 ”给 定 一 个 长 度 为 "的 文法 G， 可 以 在 O(z) 的 时 间 内 找到 一 个 和 C 等 价 的 乔 姆 斯 基 
范式 的 文法 ， 并 且 所 得 到 的 文法 的 长 度 为 CO02)。 口 


7.4.3 测试 CFL 的 空 性 


前 面 已 经 看 到 了 一 个 能 够 测试 CFL 7 是 否 为 空 的 算法 。 给 定语 言 [的 文法 G， 使 用 7.1.2 节 中 
的 算法 来 判定 G 的 开始 符号 5 是 否 是 产生 的 ， 也 就 是 说 ，5 是 否 能 够 推导 出 至 少 一 个 申 。L 是 空 的 
当 且 仅 当 5 不 是 产生 的 。 

因为 这 个 测试 的 重要 性 ， 我 们 将 要 详细 地 考虑 找到 文法 G 的 全 部 产生 符号 所 需 的 时 间 。 假 设 
G 的 长 度 为 x"， 则 可 能 有 接近 于 n 的 数目 的 变 元 ， 且 每 次 产生 变 元 的 归纳 发 现 可 能 需要 O(n) 的 时 间 
来 检查 G 的 所 有 产生 式 。 如 果 在 每 次 测试 中 只 能 发 现 一 个 新 的 产生 变 元 ， 则 将 会 总 共 需 要 O(n) 次 
测试 。 因 此 ， 一 个 直接 的 产生 符号 的 测试 的 实现 所 需 的 时 间 是 CC)。 

然而 ， 存 在 一 个 更 加 细致 的 算法 ， 它 预先 建立 一 个 数据 结构 ， 以 使 产生 符号 的 发 现 过 程 只 
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需 O(n) 的 时 间 。 该 数据 结构 如 图 7-11 所 示 ， 从 一 个 以 变 元 为 索引 的 数组 出 发 “(图 的 左 部 )， 它 表 
明 我 们 是 否 已 经 确定 该 变 元 是 产生 的 。 在 图 7-11 中 ， 由 该 数 组 可 知 我 们 已 经 发 现 B 是 产生 的 , 但 
我 们 还 不 知道 4 是 不 是 产生 的 。 在 算法 结束 时 ， 剩 余 的 问号 都 变 成 “no”"， 原 因 是 不 能 由 该 算法 
发 现 为 产生 的 符号 事实 上 都 是 非 产 生 的 。 




















图 7-11 线性 时 间 的 空 性 测试 所 使 用 的 数据 结构 


可 以 通过 建立 许多 类 型 的 链接 来 对 这 些 产 生 式 进行 预 处 理 。 首 先 ， 对 于 每 个 变 元 都 有 一 个 
链 把 所 有 该 变 元 出 现 的 位 置 记录 下 来 。 例 如 ， 变 元 B 的 链 在 图 中 如 实 线 所 示 。 对 于 每 个 产生 式 ， 
都 有 一 个 计数 ， 它 表示 所 有 尚未 考虑 是 否 能 够 产生 终结 符 串 的 变 元 的 位 置 的 个 数 。 图 中 的 虚线 
所 示 的 是 从 产生 式 到 它们 的 计数 的 链接 。 图 7-11 中 所 示 的 计数 说 明了 还 没有 开始 考虑 任何 变 元 ， 
虽然 已 经 知道 了 B 是 产生 的 。 

假设 已 经 发 现 8 是 产生 的 。 我 们 就 沿 着 从 B 出 发 的 表示 体 中 拥有 8 的 位 置 的 链接 走 下 去 。 对 
于 每 个 这 样 的 位 置 ， 我 们 把 该 产生 式 的 计数 减 一 ， 为 了 判断 头 变 元 是 否 产生 的 ， 发 现 是 产生 的 
所 需要 的 位 置 少 了 一 个 。 

如 果 一 个 计数 变 为 了 0， 则 知道 头 变 元 是 产生 的 。 可 以 通过 点 线 所 示 的 链接 找到 该 变 元 ， 接 
着 我 们 可 能 把 该 变 元 放 到 一 个 队列 中 以 表示 这 次 发 现 的 结果 还 需要 研究 (正如 刚刚 对 变 元 B 所 做 
的 那样 )。 这 个 队列 在 图 中 没有 给 出 。 

必须 证 明 该 算法 需要 的 时 间 是 O(n) 的 。 要 点 如 下 。 

* 因 为 大 小 为 n 的 文法 中 至 多 有 n 个 变 元 ， 所 以 该 数组 的 建造 和 初始 化 过 程 所 需 的 时 间 都 是 

O(n) 的 。 

“因为 至 多 有 mn 个 产生 式 ， 并 且 它 们 的 总 长 度 最 大 为 n， 所 以 图 7-1 中 所 示 的 链接 和 计数 的 初 

始 化 过 程 所 需 的 时 间 都 是 O(n) 的 。 

“ 当 发 现 一 个 产生 式 的 计数 为 0 时 (也 就 是 说 ， 所 有 它 的 体 中 的 位 置 都 是 产生 的 )， 所 需要 做 

的 工作 可 以 分 为 两 类 : 

了 ) 对 于 该 产生 式 的 工作 ， 当 发 现 计数 为 0 时 ， 找 到 该 变 元 (也 就 是 头 变 元 )， 雍 如 为 A， 检 
查 它 是 否 已 知 是 产生 的 ， 如 果 不 是 就 把 它 放 和 队列。 对 于 每 个 产生 起 这 些 步 又 所 需 的 时 
间 都 是 0(1)， 因 此 总 得 来 说 这 种 类 型 得 工作 所 需 的 时 间 至 多 为 O(n)。 

D 当 访 问 到 产生 式 的 体 中 的 位 置 正 是 该 头 变 元 4 时 所 做 的 工作 。 这 些 工作 正比 于 是 4 的 位 
置 的 数目 。 因 此 , 处 理 所 有 的 产生 符号 所 需 的 工作 总 量 正比 于 所 有 产生 式 体 的 长 度 之 和 ， 
也 就 是 O(n)。 

因此 得 出 结论 : 该 算法 总 的 工作 所 需 的 时 间 为 O(n)。 
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线性 空 性 测试 的 其 他 用 法 


7.4.3 节 所 述 的 用 于 测试 变量 是 否 是 产生 的 这 种 数据 结构 和 计数 技巧 也 可 用 于 使 ?7.1 节 中 
的 某 些 其 他 测试 为 线性 时 间 的 。 两 个 重要 的 示例 是 : 

1. 哪些 符号 是 可 达 的 。 

2. 哪 些 符号 是 可 空 的 。 











7.4.4 测试 CFL 的 成 员 性 


我 们 也 可 以 判定 一 个 串 w 对 于 一 个 CFL 来 说 的 成 员 性 。 有 很 多 低 效 的 方法 来 做 这 个 测试 ， 
它们 所 需 的 时 间 都 是 wl 的 指数 ， 其 中 假设 已 经 给 定 了 语言 L 的 一 个 文法 或 者 PDA 且 把 它们 的 大 小 
看 作 是 和 w 无 美的 常数 。 例 如 ， 从 把 给 定 的 的 某 种 表示 转化 为 L 的 CNF 文 法 出 发 。 由 于 乔 姆 斯 基 
范式 文法 的 语法 分 析 树 都 是 二 叉 树 ， 所 以 如 果 w 的 长 度 是 a 则 在 该 树 中 恰好 有 2n 一 1 个 标号 为 变 元 
的 节点 (对 于 该 结果 有 一 个 很 简单 的 归纳 证 明 ， 把 它 留 给 读者 )。 因 此 可 能 存在 的 树 的 数目 以 及 
节点 标号 的 数目 也 “只 不 过 ”是 n 的 指数 ， 因 此 原则 上 可 以 把 它们 全 列 出 来 然后 检查 一 下 是 否 它 
们 中 的 某 个 的 产物 为 w。 

有 一个 基于 “动态 规划 (dynamic programming)” 思 想 的 有 效 得 多 的 技术 ， 也 许 就 是 “ 填 表 
算法 ”或 “做 表 法 "。 这 个 算法 称 为 CYK 算 法 9 ， 它 从 语言 L 的 CNF 文 法 G = (Y,T, P, DHR. 
算法 的 输入 是 FR Hive = aaran 该 算法 在 OCo) 的 时 间 内 构造 出 一 个 表明 "是 否 属于 [的 表 。 
注意 ， 当 计算 这 个 运行 时 间 时 ， 认 为 该 文 法 本 身 是 固定 的 ， 因 此 它 的 大 小 对 运行 时 间 的 影响 只 
是 一 个 常数 因子 ， 因 此 运行 时 间 是 以 正在 测试 属于 的 成 员 的 串 w 的 长 度 来 度量 的 。 

在 CYK 算 法 中 ， 我 们 构造 一 个 三 角形 的 表 ， 如 图 7-12 所 示 。 
水 平 轴 对 应 于 串 w = aa…a 中 的 位 置 ， 在 图 中 假定 w 的 长 度 为 5。 
KX 是 满足 4 aa a 的 变 元 4 的 集合 。 特 别 要 注意 ， 我 们 


所 关心 的 是 5 是 否 属于 集合 Xn， 因 为 如 果 是 就 等 价 于 5S=>w ,hw 
属于 L。 

为 了 填 上 该 表 ， 一 行 一 行 、 从 下 向 上 地 进行 处 理 ， 注 意 , 每 
行 对 应 于 一 种 长 度 的 子 串 ， 最 下 面 的 一 行 对 应 着 长 度 为 1 的 串 ， 
倒数 第 三 行 对 应 着 长 度 为 2 的 串 ， 依 此 类 推 ， 直 到 最 上 面 的 一 行 
对 应 着 长 度 为 "的 子 串 ， 也 就 是 w 本 身 。 计 算 该 表 中 的 任何 一 个 表 
项 都 需要 O(n) 的 时 间 ， 所 用 的 方法 将 在 下 面 接着 介绍 。 因 为 该 表 
中 共有 n(n + 1)/2 个 表 项 ， 所 以 构造 整个 表 的 过 程 所 需 的 时 间 是 O(m) 的 。 下 面 是 计算 为 的 算法 : 

基础 按 下 面 的 方式 计算 第 一 行 。 因 为 从 位 置 :开始 且 结 束 于 位 置 ; 的 串 就 是 终结 符 &， 且 该 
文法 是 CNF 的 ， 所 以 推导 出 囊 a 的 惟一 的 途径 是 使 用 4 一 a 形式 的 产生 式 。 因 此 ，Xi 是 使 得 A 一 a 
是 G 的 产生 式 的 变 元 4 的 集合 。 

归纳 : 假设 想 要 计算 出 Xx,， 它 处 在 第 j 一 i + 1 行 ， 并 且 已 经 计算 出 了 所 有 它 下 面 的 行 里 的 X。 





be PER NaH Ss 
图 7-12 由 CYK 算 法 构造 的 表 
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也 就 是 说 ， 已 知道 了 所 有 比 oai*，…'q 短 的 串 ， 并 且 特 别 地 也 已 知道 了 所 有 这 样 的 串 的 真 前 级 和 真 
后 级 。 因 为 可 以 假设 j 一 i> 0 (因为 i = 的 情况 是 在 基础 部 分 )， 因 此 可 知 任何 推导 A>aa,,---a, 
一 定 从 某 步 A> BC 出 发 。 然 后 ，8 推 导出 某 个 aa; ,1…aj 的 前 组 ， 比 如 Baa,.--a,, Ih 
k<j. 同样 ，C 也 一 定 推导 出 aa ,1… gj 的 剩 下 的 部 分 ， 即 Caa, a, 。 

因此 得 知 : 为 了 使 4 属于 3， 必 须 找到 变 元 B 和 (CI 以 及 整数 满足 ; 

L.i<k<j, 

2.B 属于 Xa。 

3. CHF Xe+1.40 

4.4 一 BC 是 G 的 产生 式 。 

为 了 对 这 样 的 变 元 4 进行 寻找 ， 需 要 至 多 比较 "对 以 前 计 
算出 来 的 集合: Xi, Xray), Kusi Xiz), 依 此 类 堆 ， 直 到 
(Xj 入)。 图 7-13 所 示 的 是 这 些 进行 比较 的 集合 的 模式 ， 在 这 
种 模式 中 前 一 个 在 为 以 下 从 下 向 上 ， 后 一 个 沿 着 对 角 线 向 下 。 








定理 7.33 上面 所 述 的 算法 能 够 对 于 所 有 的 汪 U 正 确 地 计 图 7.13 x 计算 需要 把 向 下 的 列 
算出 X%， 因 此 w 属 于 L(G) 当 且 仅 当 S 属 于 Xi。 而 且 ， 该 算法 所 和 向 右 的 对 角 线 进行 进行 比较 
需 的 运行 时 间 是 (7)。 

证 明 ”该 算法 能 够 找到 正确 的 集合 的 原因 已 经 在 介绍 恋 算 法 的 基础 和 归纳 部 分 时 进行 了 解 
释 。 对 于 运行 时 间 ， 注 意 一 共 需 要 计算 0() 个 表 项 ， 并 且 每 个 表 项 的 计算 需要 对 n 对 表 项 进行 比 
较 和 计算 。 最 重要 的 是 要 记 住 ; 虽然 在 每 个 集合 中 可 能 会 有 很 多 变 元 ， 但 文法 G 是 固定 的 ， 
因此 它 的 变 元 数 是 和 "无 关 的 ， 也 就 和 被 测试 成 员 性 的 串 w 的 长 度 无 关 。 因 此 ， 用 来 比较 两 个 表 
项 Xe 和 ,以 及 找到 应 加 入 羽 的 变 元 的 时 间 是 OUD) 的 。 由 于 对 于 每 个 光 来 说 至 多 有 /个 这 种 


对 ， 因 此 总 的 工作 是 O(m) 的 。 口 
例 7.34 下 面 是 一 个 CNF 文 法 G 的 产生 式 ， 
S—AB| BC 
4 一 B41a 
B—CCIb 
C 一 4B1a 
{S,A,C} 
我 们 将 对 L(G) 测试 串 baaba 的 成 员 性 。 图 7-14 给 出 了 对 
于 该 申 所 填 的 表 。 Big pets} 
为 了 构造 第 一 (最 下 面 的 ) 行 ， 使 用 基础 规则 。 8) 四 


只 要 考虑 产生 式 体 为 的 变 元 (这样 的 变 元 为 4 和 C) 
以 及 产生 式 体 为 bp 的 变 元 (这样 的 变 元 只 有 B)。 因 此 ， 
在 a 上 面 的 位 置 中 看 到 表 项 {4，C}， 而 b 上 面 的 位 置 中 (B) {AC} {A.C} 全 WC} 
看 到 表 项 {8}。 也 就 是 说 ,Xu = Xu = {B}, Xv = Xs = 
Xss = {A, C}. b a a b a 

在 第 二 行 中 看 到 Xis, Xs, Xss 和 Xs 的 值 。 例 如 ， 看 。 图 7-14 用 CYK 算 法 对 串 baaba 所 构造 的 表 


{SA} {B} {S.C} {S.A} 
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一 下 Xi 是 如 何 算出 来 的 。 只 有 一 种 方式 来 把 从 位 置 1 到 2 的 子 串 〈 即 za) 打 断 为 两 个 非 空子 串 。 
第 一 个 一 定 是 位 置 1， 而 第 二 个 一 定 是 位 置 2。 为 了 让 一 个 变 元 能 产生 ba， 它 一 定 有 一 个 其 第 一 
个 变 元 属于 Xn = (BY (也 就 是 说 ， 它 产生 5b)， 而 第 二 个 变 元 属于 Xx = {A.C} (也 就 是 说 ， 它 产生 
a) 的 产生 式 体 。 这 个 产生 式 体 只 能 是 B4 或 BC。 如 果 检 查 一 下 该 文法 ， 就 会 发 现 只 有 产生 式 4 一 
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BA 和 5S 一 BC 拥有 这 样 的 体 。 因 此 两 个 头 4 和 5 组 成 了 X12。 

举 一 个 更 复杂 的 例子 ， 考 虑 Xs 的 计算 。 对 于 占据 位 置 2 到 4 的 串 aabp， 可 以 从 位 置 2 后 面 或 者 
位 置 3 后 面 来 打 断 它 。 也 就 是 说 ， 可 以 在 Cz 的 定义 中 选择 k = 2 或 着 k = 3。 因 此 ， 必 须 考虑 所 有 
XXwUXisXw 中 的 体 。 这 个 申 的 集合 是 {A, CHS, C}U{B}{B} = {AS, AC, CS, CC, BB}。 在 该 集合 
的 五 个 串 中 ， 只 有 CC 是 产生 式 体 ， 且 该 产生 式 的 头 是 B。 因 此 X2s = {B}。 口 
7.4.5 不 可 判定 的 CFL 问 题 一 览 

在 后 面 的 几 章 中 会 介绍 一 个 非凡 的 理论 ， 该 理论 能 够 使 我 们 通过 形式 化 的 方法 来 证 明 有 些 
问题 是 无 法 通过 能 在 计算 机 上 运行 的 算法 来 解决 的 。 我 们 将 会 用 它 来 证 明确 实 存在 很 多 无 法 用 
算法 解决 的 看 上 去 很 简单 的 关于 文法 和 CFL 的 问题 ， 它 们 被 称 为 “不 可 判定 问题 "。 现 在 
用 一 系列 非常 有 意义 的 关于 上 下 文 无 关 文法 和 上 下 文 无 关 语言 的 不 可 判定 问题 来 充实 
面 的 问题 都 是 不 可 判定 的 : 

1. 某 个 给 定 的 CFG G 是 歧义 的 吗 ? 

2. 某 个 给 定 的 CFL 是 固有 歧义 的 吗 ? 

3. 两 个 CFL 的 交 为 空 吗 ? 

4. 两 个 CFL 相 同 吗 ? 

5. 某 个 给 定 的 CFL 等 于 Z* 吗 ?其 中 是 该 语言 的 字母 表 ? 

注意 ， 关 于 歧义 性 的 问题 (0)， 在 风格 上 和 其 他 的 问题 有 些 不 同 : 它 是 一 个 关于 文法 的 问题 ， 
而 不 是 关于 语言 的 问题 。 虽 然 所 有 其 他 的 问题 都 假定 已 经 给 定 了 一 个 该 语言 文法 或 者 PDA， 但 
是 所 问 的 问题 是 针对 这 个 给 定 的 文法 或 者 PDA 所 定义 的 语言 的 。 例 如 ， 和 问题 (1) 相 比 ， 第 二 个 
问题 问 的 是 一 个 给 定 的 文法 G (或 者 一 个 PDA， 情 况 也 类 似 ) 是 否 存在 某 个 和 它 等 价 的 无 歧义 的 
文法 G'。 如 果 G 本 身 是 无 歧义 的 ， 则 答案 当然 是 “是 "， 但 是 如 果 G 是 歧义 的 ， 则 仍然 有 可 能 存 
在 其 他 和 它 定义 同样 语言 的 无 歧义 的 文法 G'， 就 像 在 例 5.27 中 学 习 的 表达 式 文法 一 样 。 














7.4.6 习题 


习题 7.4.1 给 出 判定 以 下 问题 的 算法 : 
* a) 对 于 一 个 给 定 的 CFG G，L(G) 是 否 是 有 限 的 ? 提示 : 使 用 泵 引 理 。 
1b) 对 于 一 个 给 定 的 CFG G，LG) 是 否 至 少 包含 100 个 串 ? 
M0) 给 定 一 个 CFG G 和 一 个 它 的 变 元 4， 是 否 存在 以 A 为 第 一 个 符号 的 名 型 “注意 ;记得 有 可 
能 4 首先 出 现在 某 个 句 型 的 中 间 但 是 接 下 来 所 有 它 左 边 的 符号 都 推导 出 了 e。 
习题 7.4.2 使 用 7.4.3 节 中 描述 的 技术 来 开发 出 解决 以 下 关于 CFG 的 问题 的 线性 时 间 算 法 : 
a) 哪些 符号 能 够 出 现在 句 型 中 ? 
b) 哪些 符号 是 可 空 的 (推导 出 e) ? 
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习题 7.4.3 对 于 例 7.34 中 的 文法 G， 用 CYK 算 法 来 确定 下 列 串 是否 属 于 LG); 
* a) ababa, 
b) baaab, 
c) aabab, 
* 习题 7.4.4 ”证 明 : 在 任何 CNF 文 法 中 ， 所 有 长 度 为 n 的 串 的 语法 分 析 树 都 有 2n 一 1 个 内 部 节 
点 (也 就 是 说 ，2n 一 1 个 以 变 元 为 标号 的 节点 )。 
! 习题 7.4.5 ”修改 CYK 算 法 ， 使 之 能 够 给 出 对 于 一 个 给 定 的 输入 的 不 同 的 语法 分 析 树 的 个 数 ， 
而 不 是 仅仅 给 出 在 该 语言 中 的 成 员 性 。 


7.5 小 结 


“去 除 无 用 符号 : 如 果 在 某 个 CFG 中 的 某 个 变 元 不 能 推导 出 终结 符 串 ， 而 且 它 不 可 能 出 现在 
由 开始 符号 推导 出 的 至 少 一 个 串 中 ， 则 可 以 从 CFG 中 去 除 它 。 为 了 正确 地 去 除 这 类 无 用 符 
号 ， 必 须 首先 测试 一 个 变 元 是 否 能 够 推导 出 终结 符 串 ， 然 后 去 除 那些 不 能 推导 出 终结 符 串 
的 变 元 以 及 所 有 它们 的 产生 式 。 然 后 只 去 除 那些 无 法 从 开始 符号 推导 出 的 符号 。 

“去 除 E 产 生 式 和 单位 产生 式 : 给 定 一 个 CFG， 可 以 找到 另外 一 个 除了 a 之 外 能 够 产生 同样 语言 的 
CFG， 因 此 也 就 没有 e 产 生 式 ( 体 为 的 产生 式 ) 或 者 单位 产生 式 ( 体 为 单个 变 元 的 产生 式 )。 

RANEE: 给 定 一 个 至 少 能 够 推导 出 一 个 非 空 串 的 CFG， 可 以 找到 另外 一 个 除了 之 
外 产生 同样 语言 的 并 且 是 乔 姆 斯 基 范 式 的 CFG: 没有 无 用 符号 ， 并 且 每 个 产生 式 体 只 包含 
两 个 变 元 或 者 一 个 终结 符 。 

RAM: 在 任何 CFL 中 ， 在 任何 属于 该 语言 的 足够 长 的 串 中 ， 都 可 以 找到 一 个 下 面 这 样 的 
短 串 ， 它 的 两 端 可 以 作为 相互 合作 被 “ 泵 "， 也 就 是 说 ， 可 以 把 每 一 个 重复 任意 多 次 。 被 
泵 的 串 不 会 都 是 s。 这 个 引 理 ， 以 及 另 一 个 在 习题 7.2.3 中 介绍 的 称 为 奥 格 登 引 理 的 更 强 的 
版 本 ， 可 以 使 我 们 证 明 许多 语言 不 是 上 下 文 无 关 的 。 

“保持 上 下 文 无 关 语 言 的 运算 ; CFL 在 代入 、 并 、 连 接 、 闭 包 〈 星 )、 反 转 以 及 逆 同 态 这 些 运 
算 下 是 封闭 的 。CFL 在 交 运 算 和 补 运算 下 不 是 封闭 的 ， 但 CFL 和 正则 语言 的 交 仍然 是 CFL。 
"测试 CFL 的 空 性 : 给 定 一 个 CEG， 存 在 一 个 算法 能 够 判断 它 是 否 产生 至 少 一 个 串 。 有 一 个 

细致 的 实现 能 够 在 正比 于 文法 大 小 的 时 间 内 完成 该 测试 。 

， 测 试 CFL 的 成 员 性 : CYK (Cocke-Younger-Kasami) 算法 能 够 判断 一 个 给 定 的 串 是 否 属于 
一 个 给 定 的 上 下 文 无 关 语言 。 对 于 一 个 固定 的 CFL， 它 的 测试 时 间 是 OU)， 其 中 "是 被 测 
试 的 串 的 长 度 。 
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第 8 章 图 灵机 导 引 


在 本 章 中 ， 本 书 的 讨论 方向 有 大 的 改变 。 到 目前 为 止 ， 把 主要 兴趣 放 在 简单 语言 类 及 其 用 于 
相当 受 限制 的 问题 (比如 协议 分 析 、 文 本 搜索 、 或 程序 语法 分 析 等 ) 的 方法 上 。 现 在 ， 开 始 考虑 
无 论 什么 样 的 任意 计算 装置 能 定义 什么 语言 的 问题 。 这 个 问题 等 价 于 计算 机 能 做 什么 的 问题 ， 
为 识别 语言 中 的 串 是 表示 任意 问题 的 形式 化 方法 ， 解 答 问题 则 是 计算 机 做 什么 的 合理 表示 。 

本 章 利 用 假设 的 C 程 序 设 计 知 识 ， 从 非 形式 化 论证 开始 ， 证 明 存在 不 能 用 计算 机 解答 的 具体 
问题 。 这 些 问 题 称 为 “不 可 判定 的 "。 然 后 介绍 计算 机 的 由 来 已 入 的 形式 化 ， 即 所 谓 图 灵机 。 图 
灵机 外 表 不 像 个 人 电脑 ， 假 如 某 个 突然 冒 出 来 的 公司 决定 制造 和 出 售 图 灵机 ， 那 么 那 种 图 灵机 
可 能 是 非常 低 效 的 ， 但 图 灵机 一 直 被 认为 是 关于 任意 物理 计算 装置 能 做 什么 的 精确 模型 。 

在 第 9 章 中 ， 使 用 图 灵机 来 发 展 “ 不 可 判定 ”问题 的 理论 ， 即 任何 计算 机 都 不 能 解决 的 问题 。 
证 明 许 多 容易 表达 的 问题 事实 上 是 不 可 判定 的 。 一 个 例子 是 断定 给 定 的 文法 是 否 歧义 ， 我 们 还 
将 看 到 许多 其 他 例子 。 


8.1 计算 机 不 能 解答 的 问题 


本 节 的 目标 是 给 出 非 形式 化 的 、 基 于 C 程 序 设计 的 介绍 ， 来 证 明 存在 计算 机 不 能 解答 的 具体 
问题 。 讨 论 的 具体 问题 是 : C 程 序 显 示 的 开头 是 否 为 hello， world。 可 能 设想 对 程序 的 模拟 
将 允许 断定 程序 做 什么 ， 但 在 现实 中 必须 处 理 那些 花费 了 超 平 想像 的 长 时 间 之 后 还 根本 没有 产 
生 任何 输出 的 程序 。 这 个 问题 一 -不 知道 某 件 事情 将 在 何 时 发 生 (假如 终究 发 生 ) 一 一 是 不 能 断 
定 程序 做 什么 的 根本 原因 。 但 形式 化 地 证 明 不 存在 完成 规定 任务 的 程序 ， 这 是 非常 辐 手 的 ， 需 
要 开发 一 些 形式 化 的 技巧 。 在 本 节 中 ， 给 出 形式 化 证 明 背 后 的 直觉 。 


8.1.1 显示 “hello, world” 的 程序 


图 8-1 中 是 学 生 们 读 Kernighan 和 Ritchie 的 经 典 著作 。 时 遇 到 的 第 一 个 C 程 序 。 很 容易 发 现 这 
个 程序 显示 hello， world 并 终止 。 这 个 程序 太 显然 了 ， 结 果 形 成 这 样 一 种 惯例 ， 即 通过 说 明 
如 何 用 一 些 语言 来 写 显示 he1l1o，world 的 程序 来 介绍 这 些 语言 。 








main() 
{ 
printf("hello, world\n"); 








图 8-1 Kemighan 和 Ritchie 的 hello-world 程 序 
不 过 ， 存 在 其 他 程序 也 显示 hello， world, 而 这 些 程序 这 样 做 的 事实 却 远 非 显然 。 图 8.2 
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说 明 另 一 个 程序 可 能 显示 hello， wor1d。 这 个 程序 获得 输入 "， 寻 找 方程 m+ y'= 2 EMER 
解 。 如 果 找到 一 个 解 ， 就 显示 hello， world。 如 果 永远 找 不 到 满足 方程 的 整数 x, y 和 z， 就 永 
远 继 续 搜索 下 去 ， 永 不 显示 hellor world, 








int exp(int i, n) 
/* 计算 i 的 n 次 等 */ 
{ 
int ans, j; 
ans = 1; 
for (j=1; j<=n; j++) ans += i; 
return(ans) ; 
} 
main () 
{ 
int n, total, x, y, Z; 
scanf("%d", &n); 
total = 3; 
while (1) { 
for (x=1; x<=total-2; x++) 
for (y=1; y<=total-x-1; y++) { 
z = total - x - y; 
if (exp(x,n) + exp(y,n) == exp(z,n)) 
printf("hello, world\n"); 
} 
total++; 
了 
} 








图 8-2 费 马 大 定理 表示 成 hello-world 程 序 


为 了 理解 这 个 程序 所 做 的 ， 首 先 注意 exp 是 计算 指数 的 辅助 函数 。 主 程序 需要 按照 某 种 顺 
序 搜索 三 元 组 (x, y, ?)， 以 保证 最 终 达到 每 个 正 整数 三 元 组 。 为 了 适当 地 组 织 搜索 ， 使 用 第 四 个 


变量 total， 初 值 为 3， 


在 while 循 环 中 每 次 加 1， 最 终 达 到 任何 有 穷 整 数 。 在 while 循 环 内 ， 把 


total 分 成 三 个 正 整 数 x, y, z， 先 让 x 从 1 漫游 到 total-2， 在 for 循 环 中 让 y 从 1 温 游 到 total 减 去 
* 再 减 1。 剩 下 来 的 数 一 定 在 1 与 total-2 之 间 ， 把 这 个 数 给 z。 
在 最 内 层 循环 中 ， 测 试 三 元 组 (x; y, 看 是 否 m+ y= zx。 若 是 ， 则 程序 显示 hello，world， 


车 否 ， 则 什么 也 不 显示 。 


如 果 程 序 读 到 n 值 是 >， 则 程序 最 终 将 找到 x*+ y*=z 的 整数 组 合 ， 比 如 total = 12,x=3,y=4, 
z=5。 因 此 ， 对 输入 2， 程 序 的 确 显示 hello，world。 

但 是 ， 对 任何 整数 ">2， 程 序 将 永远 找 不 到 满足 w+ y= z" 的 正 整 数 三 元 组 ， 因 此 不 显示 
hello, world。 说 来 有 趣 ， 直 到 几 年 前 ， 还 不 知道 这 个 程序 是 否 对 某 个 大 整数 n 将 显示 
hello, world。 费 马 在 300 年 前 断言 过 将 不 显示 ， 即 如 果 n>2， 则 方程 w+ y= z 没 有 整数 解 ，. 
但 是 直到 最 近 才 找 到 证 明 。 这 个 命题 通常 称 为 “ 费 马 大 定理 "。 

定义 hello-world 问 是 为 ; 确定 带 有 给 定 输入 的 给 定 C 程 序 是 否 显示 hello， world 作 为 程序 
显示 的 前 12 个 字符 。 在 后 面 的 讨论 中 ， 常 常用 程序 显示 hello， world 的 命题 作为 省 略语 ， 表 


Download at http://www.pin5i.com/ 


图 灵机 学 引 217 





示 程 序 显 示 hello，wor1d 作 为 其 显示 的 前 12 个 字符 。 

如 果 数 学 家 们 花费 300 年 解答 关于 简单 的 22 行 程序 的 问题 ， 那 么 断定 给 定 程序 在 给 定 输入 上 
是 否 显 示 hello， world 的 一 般 问题 ， 似 乎 当然 一 定 是 困难 的 。 事 实 上 ， 数 学 家 们 还 不 能 解答 
的 任何 问题 都 能 转变 为 这 种 形式 的 问题 :“ 具 有 这 个 输入 的 这 个 程序 是 否 显示 hello，world? ” 
因此 ， 假 如 能 够 编写 程序 来 检查 任何 程序 P 和 P 的 输入 /， 并 断定 P 以 I 作为 输入 来 运行 是 否 显示 
hello, world， 那 这 当然 就 是 非 同 寻常 的 。 本 章 将 证 明 这 样 的 程序 不 存在 。 





为 什么 不 可 判定 问题 一 定 存在 


证 明 具 体 问 题 (比如 这 里 讨论 的 hello-world 问 题 ) 一 定 是 不 可 判定 的 是 坏 手 的 ， 但 非 
常 容易 看 出 为 什么 几乎 所 有 问题 采用 与 程序 设计 有 关 的 任何 系统 都 一 定 是 不 可 判定 的 。 回 
忆 一 下 , “问题” 其 实 就 是 囊 在 语言 中 的 成 员 性 。 在 任何 多 符号 字母 表 上 ， 不 同 语言 的 数 
目 都 是 不 可 数 的 。 也 就 是 说 ， 没 有 办 法 把 整数 指派 给 语言 ， 使 得 每 个 语言 有 一 个 整数 ， 且 
每 个 整数 只 指派 给 一 个 语言 。 

另 一 方面 ， 程 序 作为 有 穷 字母 表 (典型 地 是 ASCII 字 母 表 的 子 集合 ) LAAN, A 
可 数 的 。 也 就 是 说 ， 可 根据 长 度 顺序 来 排列 程序 ， 并 按 字母 顺序 来 排列 相同 长 度 的 程序 。 
因此 ， 可 谈 及 第 1 个 程序 、 第 2 个 程序 ， 一 般 说 来 第 i 个 程序 (对 于 任意 整数 i)。 

结果 我 们 知道 程序 比 问题 要 少 无 穷 多 个 。 假 如 随机 地 挑选 语言 ， 几 乎 能 确定 挑选 的 将 
是 不 可 判定 问题 。 大 多 数 问题 似乎 都 是 可 判定 的 ， 其 惟一 理由 是 人 们 很 少 注意 随机 问题 。 
更 恰当 地 说 ， 人 们 倾向 于 考虑 还 算 简单 的 、 带 有 良好 结构 的 问题 ， 当 然 这 些 问 题 常常 是 可 
判定 的 。 但 即使 在 人 们 感 兴趣 的 、 能 清楚 而 简洁 地 叙述 的 问题 中 ， 也 发 现 许 多 问题 是 不 可 
判定 的 ，hello-world 问 题 就 是 相关 的 例子 。 











8.1.2 假设 中 的 “hello, world” 检 验 程序 


进行 hello-world 检 验 的 不 可 能 性 证 明 是 归 雇 证 明 。 也 就 是 说 ,假设 存在 程序 (AH) 以 程 
序 P 和 输入 1 作为 输入 ， 断 定 带 输入 /的 P 是 否 显示 hello， world。 图 8-3 表 示 H 做 什么 。 具体 地 
说 ,AH 产生 的 惟一 输出 是 ， 显示 3 个 字符 yes 或 显示 2 个 字符 
no。 总 是 非 此 即 彼 。 f ar aa 

如 果 问 是 有 像 有 那样 的 算法 总 是 正确 地 断定 问题 实例 有 us N 
答案 “yes” 或 “no"， 就 说 问题 是 “可 判定 的 "， 否 则 ; wey” 

题 是 “不 可 判定 的 "。 本 节目 标 是 证 明太 不 存在 ， 即 hello- 图 8-3 假设 中 的 程序 是 hello- 
world 问 题 是 不 可 判定 的 。 world FRM EEF 

ATE ERE Ma, HSH, RAE AMEE, FEAL 
存在 。 由 于 对 有 H 的 修改 都 是 可 对 任何 C 程 序 来 做 的 简单 变换 ， 所 以 惟一 可 质疑 的 命题 是 H 的 存在 
性 ， 所 以 正 是 这 个 假设 导出 了 了 矛盾 。 

为 了 简化 本 节 的 讨论 ,将 做 几 点 关于 C 程 序 的 假设 。 这 些 假设 减轻 而 非 加 重 H 的 工作 ， 所 以 ， 
如 果 对 这 些 受 限制 的 程序 能 证 明 “hello-world 检 验 程 序 ” 不 存在 ， 那 么 能 对 更 大 程序 类 起 作用 的 
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检验 程序 就 肯定 不 存在 。 本 节 的 假设 是 : 
1. 所 有 输出 都 基于 字符 ， 即 不 用 图 形 包 或 任何 其 他 工具 来 产生 非 字 符 形式 的 输出 。 
2. 用 printf 产 生 所 有 基于 字符 的 输出 ， 而 不 用 putchar ( ) 或 其 他 基于 字符 的 输出 函数 。 
现在 假设 程序 有 存在。 第 一 个 修改 是 改变 输出 no，no 是 当 输 入 程序 P 不 显示 he1llo， 
world 时 所 做 的 反应 。 一 旦 H 显 示 “n”， 就 知道 最 终 将 跟着 “0”® 。 因 此 ， 可 把 # 中 任何 显示 
“n” 的 printf 语 句 修改 成 显示 hello， world。 省 略 其 他 显示 “o” 而 不 显示 “n” 的 printf 
语句 。 结 果 是 ， 恰 好 当局 将 显示 “no” 时 ， 新 的 





程序 (KAH) 显示 hello，world, 除 此 之 外 ， 1 as 
且 行 为 类 似 于 及。 如 图 8-4 所 示 。 HI A ly 
P jello, world 
这 个 程序 的 下 一 个 改变 有 点 棘手 ， 这 个 改变 
本 质 上 就 是 允许 阿兰 ， 图 灵 证 明 关 于 图 灵机 的 不 图 8-4 有 行为 类 似 于 H， 但 及 输出 
可 判定 性 结果 的 那 种 洞察 力 。 我 们 感 兴趣 的 正 是 hello，world 来 代替 输出 no 


以 其 他 程序 作为 输入 并 断定 关于 其 他 程序 一 些 性 质 的 程序 ， 所 以 将 限制 艺 使 得 它 ; 
a) 只 取 输 入 P， 而 不 是 P 和 1。 
D: 假如 P 的 输入 是 P 自 身 的 编码 ， 那 么 P 将 做 什么 ? 也 就 是 P 既 作为 程序 又 作为 输入 7， 
在 这 样 的 输入 上 且 将 做 什么 ? 
为 了 产生 如 图 8-5 所 示 的 程序 及 ， 在 A 上 必须 进行 如 下 修改 : 
1. 首先 读 整 个 输入 P 并 把 P 保 存在 数组 4 中 ，A 是 为 这 个 目的 而 “malloce”。 的 。 
2. 甩 :然后 模拟 机， 但 每 当 万 将 从 P 或 1 读 输入 a 
It, HRA RENNE. WT Aik yes 
TS DPA, HR REA P] Hh K 


hello, world 





中 的 位 置 。 
现在 准备 证 明太 不 可 能 存在 。 因 此 本 不 存在 ， 图 8-5 有 行为 类 似 于 H1， 但 使 用 
同 理 H 不 存在 。 论 证 的 核心 是 想像 当 给 定 有 自身 作 输入 同时 作为 P 和 / 


为 输入 时 到 做 什么 。 这 种 情况 如 图 8-6 所 示 。 回 忆 


本 下， 给 定 包 任意 程序 P 作 为 输入 ， 如 果 P 以 自身 £ yes 
H, H3 





EAMA Ehello, world, WHAtiyes, Ti Gdo otid 

且 ， 如 果 P 以 自身 作为 输入 不 显示 hello，world 

作为 开头 输出 ， 则 已 输出 hello，world。 图 8-6 当 给 定 自身 作为 输入 时 及 ,做 什么 
假设 如 图 8-6 中 方 框 所 示 的 瑟 输 出 yes。 于 是 方 框 中 本 正 是 这 样 表明 输入 万 的 ， 即 成 以 自身 


作为 输入 显示 hel1lo， wor1d 作 为 开头 输出 。 但 是 ， 刚 刚 假设 了 已 的 开头 输出 是 yes， 而 不 是 
hello, world, 





图 8-6 中 方 框 的 输出 似乎 是 hellovwor1d， 因 为 一 定 是 非 此 即 彼 的 。 但 是 ， 如 果 肪 以 自身 


O 程序 极 可 能 在 一 个 printf 中 显示 “no”， 但 也 可 能 在 一 个 printf 中 显示 “n”， 而 在 另 一 个 printf 中 显示 “o"。 

四 UNIX 的 malloc 系 统 函数 分 配 一 块 内 存 ， 在 malloc 的 调用 中 规定 其 大 小 。 在 直到 程序 运行 时 才能 确定 所 需 
内 存 数量 的 情况 下 使 用 这 个 函数 ， 比 如 读 任意 长 度 的 输 和 时 就 可 能 是 这 种 情况 。 典 型 情况 下 ， 可 能 多 次 调用 
malloc， 因 为 读 越 来 越 多 的 输入 ， 就 需要 不 断 增多 的 空间 。 
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作为 输入 首先 显示 hel1lo，wor1d， 则 图 8-6 中 方 框 的 输出 一 定 是 Yes。 无 论 假设 到 有 什么 输出 ， 
都 能 论证 到 有 另 一 种 输出 。 

这 种 情况 是 悖 论 ， 结 论 是 万 ;不 可 能 存在 。 结 果 是 从 HH 存在 的 假设 导出 了 蔬 盾 ， 即 已 经 证 明了 
没有 任何 程序 A 能 断定 ， 给 定 程序 P 及 其 输入 1，P 是 否 显示 hel1o，world 作 为 开头 输出 。 


8.1.3 把 问题 归 约 到 另 一 个 问题 


现在 ,这 样 就 有 了 一 个 问题 ， 带 有 给 定 输 入 的 给 定 程序 是 否 首先 显示 hello， world? it 
算 机 不 能 解答 的 问题 称 为 不 可 判定 的 。 在 9.3 节 中 将 给 出 “不 可 判定 ”的 形式 化 定义 ， 目 前 暂时 
非 形式 化 地 使 用 这 个 术语 。 假 设 希 望 确定 计算 机 能 否 解决 某 个 其 他 问题 。 可 以 试 着 写 程序 来 解 
决 这 个 问题 ， 但 如 果 不 能 断定 如 何 这 样 做 ， 就 可 尝试 证 明 不 存在 这 样 的 程序 。 

通过 类 似 于 hello-world 问 题 所 用 过 的 技术 也 许 能 证 明 新 问题 是 不 可 判定 的 ; 假设 有 一 个 程序 解 
决 这 个 问题 ， 然 后 开发 像 程序 甩 那 样 一 定做 两 件 矛 盾 事情 的 悖 论 程序 。 不 过 ， 一 旦 拥有 已 知 是 不 
可 判定 的 问题 ， 就 再 也 没有 必要 证 明 存在 悖 论 情况 。 证 明 假如 能 解决 新 问题 ， 就 能 用 这 个 解法 来 
解决 已 知 是 不 可 判定 的 问题 ， 这 就 足够 了 。 这 个 策略 如 图 8-7 所 示 ， 这 种 技术 称 为 从 Pi 到 P 的 归 约 。 


Pi F P 
实例 ili bee hee 





no 


图 8-7 如 果 能 解决 问题 P:， 就 能 用 的 解法 来 解决 问题 P 


假设 已 知 问题 P 是 不 可 判定 的 ，P; 是 希望 证 明 其 也 是 不 可 判定 的 新 问题 。 假 设 存在 如 图 
8-7 中 标记 为 “判定 ”的 苏 形 所 示 的 程序 ， 这 个 程序 根据 问题 P 输 入 实例 是 否 属于 问题 的 语 
言 来 显示 yes 或 no。 

为 了 证 明 问 题 P; 是 不 可 判定 的 ， 需 要 发 明 如 图 8-7 中 方 框 所 示 的 构造 ， 把 P 实 例 转化 为 有 相 
同 答案 的 P, 实 例 。 也 就 是 说 ， 把 P 中 任意 串 转化 为 P, 中 某 个 串 ， 把 P 字 母 表 上 不 属于 语言 Pl 的 任 
何 串 转化 为 不 属于 语言 P 的 串 。 一 旦 拥有 这 个 构造 ， 就 能 解决 己 如 下 : 

1 .给 定 书 实 例 ， 即 给 定 可 能 属于 或 不 属于 语言 已 的 串 w， 应 用 构造 算法 来 产生 串 x。 

2. 检验 x 是 否 属于 P,， 用 同样 答案 回答 w 是 否 属于 Pi。 

如 果 w 属 于 P1， 则 x 属于 P;,， 所 以 这 个 算法 输出 yes。 如 果 w 不 属于 Pl， 则 x 不 属于 P,， 这 个 算 
法 输出 no。 无 论 如 何 ， 算 法 说 出 关于 w 的 事实 。 曾 经 假设 过 判定 串 是 否 属于 已 的 算法 不 存在 ， 
所 以 已 经 用 归 雇 法 证 明了 假设 中 的 P 判 定 算法 不 存在 ， 即 是 不 可 判定 的 。 


例 8.1 利用 这 个 方法 证 明 问题 “给 定 输 入 y， 程 序 0 是 否 曾经 调用 函数 foo” 是 不 可 判定 的 。 
注意 ，Q 可 能 没有 函数 f00， 在 这 样 的 情况 下 问题 是 容易 的 ， 困 难 的 情况 是 当 0 有 函数 00， 但 


日 ”回忆 一 下 ， 问 题 其 实 是 语言 。 当 谈 及 判定 给 定 程序 和 输入 是 否 产生 hel1o， worla 作 为 开头 输出 的 问题 时 ， 
其 实 谈论 的 是 由 C 源 程序 和 后 面 跟着 的 被 程序 读 的 任意 (多 个 ) 输入 文件 组 成 的 字符 串 。 








320| 








Download at http://www.pinSi.com/ 


220 RSH 





对 输入 ?可 能 到 达 也 可 能 不 到 达 对 foo 的 调用 时 。 因 为 我 们 只 知道 一 个 不 可 判定 问题 ， 所 以 hello- 
world 问 题 将 起 图 8-7 中 P, 的 作用 。P, 将 是 刚刚 提 到 的 foo 调 用 问题 。 假 设 存在 程序 解决 foo 调 用 问 
题 。 下 面 的 任务 是 设计 算法 把 hello-world 问 题 转化 为 foo 调 用 问题 。 





计算 机 真 的 能 做 所 有 这 些 吗 ? 


如 果 检 查 诸如 图 8-2 这 样 的 程序 ， 也 许 会 问 这 个 程序 是 否 真 的 搜索 费 马 大 定理 的 反例 。 
毕竟 ， 在 典型 计算 机 中 整数 只 有 32 位 长 度 ， 如 果 最 小 反例 都 涉及 几 十 亿 那 么 大 的 整数 ， 则 
在 找到 解 之 前 就 会 发 生 溢出 错误 。 事 实 上 ， 可 以 论证 带 有 128M 主 存 和 30G 硬 盘 的 计算 机 
“只 ”有 25622aoom 种 状态 ， 因 此 只 是 有 穷 自 动机 。 

不 过 ， 认 为 计算 机 是 有 穷 自动 机 (或 认为 大 脑 是 有 穷 自动 机 ，FA 思 想来 源 于 此 ) 是 徒 
劳 的 。 有 关 的 状态 数 是 如 此 巨大 ， 界 限 又 是 如 此 不 清楚 ， 所 以 得 不 出 任何 有 用 结论 。 事 实 
上 ， 有 各 种 各 样 理由 相信 在 必要 时 能 任意 地 扩展 计算 机 的 状态 集合 。 

例如 ， 整 数 可 表示 成 任意 长 度 的 数字 和 链表。 如果 耗 尽 了 内 存 ， 程 序 可 显示 请 求 ， 让 人 
来 拆 下 硬盘 、 保 存 起 来 、 换 上 空 的 硬盘 。 随 着 时 光 流逝 ， 计 算 机 可 以 显示 请 求 ， 在 计算 机 
需要 的 那么 多 个 硬盘 中 进行 切换 。 这 个 程序 可 能 比 图 8-2 中 的 程序 复杂 得 多 ， 但 并 未 超出 人 
写 程序 的 能 力 。 类 似 的 技巧 应 当 能 够 允许 任何 其 他 程序 避免 由 内 存 大 小 、 整 数 大 小 或 其 他 
数据 项 大 小 引起 的 有 穷 限 制 。 











也 就 是 说 ， 给 定 程序 和 输入 y， 必 须 构造 程序 R 和 输入 z*， 使 得 R 对 输入 z 调 用 foo 当 且 仅 当 Q 
对 输入 > 显示 hello，world。 构 造 并 不 难 ， 
1. 如 果 Q 有 函数 称 为 Lgo， 则 重新 命名 这 个 函数 及 对 这 个 函数 的 调用 。 显 然 新 程序 1 恰好 做 
Q 所 做 的 事情 。 
2. 给 Ci 添加 函数 foo。 这 个 函数 什么 都 不 做 ， 也 不 被 调用 。 得 到 的 程序 是 Ci。 
3. 修改 @: 来 记录 其 显示 的 前 12 个 字符 ， 在 全 局 数组 4 中 保存 这 些 字符 。 设 得 到 的 程序 是 Ci。 
322) 4. 修改 Q, 使 得 每 当 它 执行 输出 语句 时 ， 就 检查 数组 4 看 是 否 已 经 写 了 12 个 字符 或 更 多 ， 如 果 
323 是 ， 就 看 它 12 个 字符 是 否 是 hello， wor1ld。 在 是 的 情况 下 ， 调 用 在 第 (2) 条 中 加 入 的 新 
函数 E00。 得 到 的 程序 是 R， 输 入 z 与 > 相同 。 





归 约 的 方向 是 重要 的 


常见 的 错误 是 试图 通过 把 问题 P 归 约 到 某 个 已 知 的 不 可 判定 问题 P. 上 来 证 明 P; 是 不 可 
判定 的 ， 即 证 明 命题 “如 果 P 是 可 判定 的 ， 则 P; 是 可 判定 的 "。 这 个 命题 确实 为 真 ， 但 毫 无 
用 处 ， 因 为 前 提 “P 是 可 判定 的 ”是 不 正确 的 。 

证 明 新 问题 P; 不 可 判定 的 惟一 方法 是 把 已 知 的 不 可 判定 问题 Pi 归 约 到 P, 上 。 通 过 这 
种 方式 证 明 命 题 “ 如 果 P2 是 可 判定 的 ， 则 Pl 是 可 判定 的 "。 这 个 命题 的 逆 否 命题 是 “如 
果 P 是 不 可 判定 的 ， 则 Ps 是 不 可 判定 的 "。 已 知 P1 是 不 可 判定 的 ， 所 以 能 推导 出 P; 是 不 可 
判定 的 。 
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假设 C 对 输入 ?显示 hello， worla 作 为 开头 输出 。 于 是 构造 的 R 将 调用 f60。 但 如 果 Q 对 输 
入 y 不 显示 hello， world 作 为 开头 输出 ， 则 构造 的 R 将 永 不 调用 foo。 如 果 能 判定 R 对 输入 z 是 
否 调用 foo， 也 就 知道 CQ 对 输入 y( 记 住 y =<) 是 否 显示 hello， world。 因 为 已 知 不 存在 算法 
判定 hello-world 问 题 ， 而 且 通过 编辑 程序 代码 的 程序 就 能 完成 从 2 构造 R 的 4 个 步骤 ， 所 以 存在 
foo 调 用 检验 程序 的 假设 是 错误 的 。 不 存在 这 样 的 程序 ，foo 调 用 问题 是 不 可 判定 的 。 ia} 


8.1.4 习题 


习题 8.1.1 给 出 从 hello-world 问 题 到 下 列 每 个 问题 的 归 约 。 使 用 本 节 的 非 形式 化 风格 来 描述 
那些 似是而非 的 程序 变换 ， 不 要 担心 真实 计算 机 强加 的 诸如 文件 大 小 或 内 存 大 小 这 样 的 真实 限 
制 。 
"a 给 定 程序 和 输入 ， 程 序 是 否 最 终 停机 ， 即 程序 在 输入 上 是 否 永远 不 死 循 环 ? 
b 给 定 程序 和 输入 ， 程 序 是 否 最 终 产生 任何 输出 ? 
! 9) 给 定 两 个 程序 和 一 个 输入 ， 这 两 个 程序 对 给 定 输 入 是 否 产生 相同 的 输出 ? 


8.2 图 灵机 


不 可 判定 问题 理论 的 目标 ， 不 仅 是 建立 这 类 问题 的 存在 性 (这 本 身 就 是 在 智力 上 使 人 兴奋 
的 想法 )， 而 且 是 给 程序 员 提供 通过 编程 可 能 可 以 做 什么 或 可 能 不 可 以 做 什么 的 指南 。 当 在 第 
10 章 中 讨论 虽 可 判定 但 需 大 量 时 间 才 能 解决 的 问题 时 ， 这 个 理论 也 有 巨大 的 实用 影响 。 这 些 问 
题 ( 即 所 谓 “ 难 解 问题 ") 倾向 于 比 不 可 判定 问题 给 程序 员 和 系统 设计 员 设置 更 大 的 困难 。 因 
为 不 可 判定 问题 通常 都 是 非常 明显 不 可 判定 的 ， 在 实践 中 几乎 不 需要 解决 这 些 问题 ， 而 难 解 问 
题 每 天 都 会 遇 到 。 而 且 ， 难 解 问题 常常 让 步 于 需求 中 的 小 改动 或 者 启发 式 解法 。 因 此 ， 设 计 员 
非常 频繁 地 遇 到 这 样 的 事情 : 必须 判定 问题 是 否 属于 难 解 的 一 类 ， 如 果 是 ， 就 决定 对 其 采取 什 
么 行动 。 

我 们 需要 一 些 工具 来 证 明日 常 问题 是 不 可 判定 或 难 解 的 。8.1 节 介绍 的 技术 对 于 涉及 程序 的 
问题 是 有 用 的 ， 但 却 不 容易 转化 到 不 相关 领域 中 的 问题 上 。 例 如 ， 把 hello-world 问 题 归 约 到 文法 
是 否 歧义 的 问题 上 ， 就 可 能 有 巨大 困难 。 

结果 是 ， 建 立 不 可 判定 性 理论 需要 不 是 基于 用 C 或 另 一 种 语言 写 的 程序 ， 而 是 基于 非常 简单 
的 计算 机 模型 ， 即 所 谓 图 灵机 。 这 种 装置 本 质 上 是 具有 无 穷 长 的 单条 带 的 有 穷 自 动机 ， 在 带 上 
可 以 读 写 数据 。 作 为 什么 是 能 计算 的 一 种 表示 ， 图 灵机 比 程序 优越 的 一 点 是 图 灵机 足够 简单 ， 
它 采 用 非常 类 似 于 PDA 的 ID 的 简单 记号 ， 就 能 准确 地 表示 图 灵机 的 格局 。 相 比 之 下 ，C 程 序 具 有 
状态 (涉及 任何 已 经 进行 的 函数 调用 序列 中 的 所 有 变 元 )， 但 描述 这 些 状态 的 记号 却 太 复 杂 了 ， 
以 致 于 我 们 不 能 做 出 可 理解 的 形式 化 证 明 。 

我 们 将 使 用 图 灵机 记号 来 证 明 与 程序 设计 似乎 无 关 的 某 些 问题 是 不 可 判定 的 。 例 如 ，9.4 池 
将 证 明 涉及 串 的 两 个 表 的 简单 问题 “波斯 特 对 应 问题 ”是 不 可 判定 的 ， 这 个 问题 使 得 容易 证 明 
关于 文法 的 问题 (例如 歧义 性 ) 是 不 可 判定 的 。 同样， 介绍 难 解 问题 时 将 发 现 与 计算 似乎 无 关 
的 某 些 问题 (例如 布尔 公式 可 满足 性 ) 是 难 解 的 。 
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8.2.1 寻求 判定 所 有 数学 问题 


在 20 世 纪 到 来 之 际 ， 数 学 家 D. 希 尔 伯 特 (D. Hilbert) 问 是 否 有 可 能 找到 算法 来 确定 任何 数 
学 命题 的 真 伪 性 。 具 体 地 说 ， 希 尔 伯 特 问 是 否 存在 方法 来 确定 整数 上 一 阶 谓词 演算 中 任何 公式 
是 否 为 真 。 整 数 一 阶 谓词 演算 有 足够 能 力 来 表达 像 “这 个 文法 是 歧义 的 ”或 “这 个 程序 显示 
hello, world” 这 样 的 命题 ， 所 以 假如 希 尔 伯 特 成 功 了 ， 这 些 问题 就 有 了 现在 已 知 是 不 存在 
的 算法 。 

但 是 ， 在 1931 年 ，K. 哥 德 尔 (K. Gödel) 发 表 了 著名 的 不 完全 性 定理 。 哥 德尔 构造 了 整数 上 
一 阶 谓词 演算 中 的 一 个 公式 ， 这 个 公式 断言 ， 公 式 本 身 在 谓词 演算 中 既 不 能 证 明 也 不 能 证 伪 。 哥 
德尔 的 技术 类 似 于 8.1.2 节 中 自 相 耶 盾 的 程序 万 的 构造 ， 但 处 理 的 是 整数 上 的 函数 而 不 是 C 程 序 。 

谓词 演算 并 不 是 数学 家 拥有 的 “任意 可 能 计算 ”的 惟一 概念 。 事 实 上 ， 谓 词 演算 (与 其 说 
是 计算 性 的 ， 还 不 如 说 是 声明 性 的 ) 必须 与 各 种 记号 竞争 ， 包 括 “ 部 分 递归 函数 ”( 更 类 似 于 程 
序 设计 语言 的 记号 ) 和 其 他 类 似 的 记号 。 在 1936 年 ，A. M. ARN: 图 灵机 是 “任意 可 能 计算 ” 
的 模型 。 即 使 真正 的 电子 或 电磁 计算 机 在 之 后 几 年 才 问 世 (在 第 三 次 世界 大 战 中 ， 图 灵 本 人 至 
力 于 建造 这 样 的 机 器 )， 图 灵机 模型 也 是 类 似 于 计算 机 的 ， 而 不 是 类 似 于 程序 的 。 

说 来 有 趣 ， 对 于 计算 模型 的 所 有 严肃 提议 都 具有 相同 的 能 力 ， 也 就 是 说 ， 这 些 模型 计算 相 
同 的 函数 或 识别 相同 的 语言 。 任 意 一 般 的 计算 方式 都 将 只 允许 计算 部 分 递归 函数 (或 等 价 地 说 ， 
图 灵机 或 现代 计算 机 所 能 计算 的 )， 这 个 不 可 证 明 的 假设 就 是 著名 的 库 坷 假设 (纪念 逻辑 学 家 A. 
丘 奇 ) 或 插 奇 -图 灵 论 题 。 


8.2.2 图 灵机 的 记号 


如 图 8-8 所 示 我 们 可 以 把 图 灵机 可 视 化 。 这 个 机 器 包含 可 处 于 状态 有 穷 集合 中 任何 一 种 状态 的 
有 穷 控 制 。 有 划分 成 方 格 或 单元 的 磁带 (tape) ， 每 个 单元 可 包含 有 穷 多 种 符号 中 任何 一 种 符号 ， 


有 穷 控制 








[2]? [xd] [xd |e [ey 
图 8-8 图 灵机 


开始 时 ， 输 入 〈 有 穷 长 度 的 从 输入 字母 表 中 选择 的 符号 的 串 ) 放 在 带 上 。 所 有 其 他 带 单元 
(向 左 、 向 右 都 无 穷 延 伸 ) 开始 时 都 包含 一 个 所 谓 空格 的 特殊 符号 。 空 格 是 带 符 号 ， 但 不 是 输入 
符号 ， 除 了 输入 符号 和 空格 之 外 ， 还 可 能 有 其 他 的 带 符号 。 

还 有 总 是 位 于 带 单元 之 一 上 的 带头 。 说 图 灵机 正在 扫描 这 个 单元 。 开 始 时 ， 带 头 位 于 包含 
输入 的 最 左 单元 上 。 
机 的 移动 是 有 穷 控 制 的 状态 和 扫描 的 带 符号 的 函数 。 在 一 步 移动 中 ， 
1. 改 变 状态 。 下 一 状态 可 随意 与 当前 状态 相同 。 
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2. 在 扫描 的 单元 中 写 带 符号 。 这 个 带 符号 代替 扫描 的 单元 中 任何 符号 。 所 写 符号 可 随意 与 
当前 在 那里 的 符号 相同 。 

3. 向 左 或 向 右 移 动 带头 。 在 本 书 的 形式 化 中 要 求 带头 移动 而 不 允许 带头 保持 静止 。 这 个 限 
制 不 约束 图 灵机 能 计算 什么 ， 因 为 包含 静止 带头 的 任何 移动 序列 都 可 连同 下 一 个 带头 移 
动 一 起 被 压缩 成 单个 状态 改变 、 新 的 带 符号 以 及 向 左 或 向 右 移动 。 

用 于 图 灵机 (TM) 的 形式 化 记号 将 类 似 于 对 有 穷 自动 机 或 PPA 已 经 用 过 的 记号 。 用 七 元 组 

描述 图 灵机 
M=(Q, 20,5, q0,B,F) 
这 些 分 量具 有 下 列 意义 : 

Q: 有 穷 控 制 的 状态 的 有 穷 集合 。 

E: 输入 符号 的 有 穷 集 合 。 

T: 带 符号 的 完整 集合 ， 三 总 是 了 的 子 集 合 。 

6: HB HA, Hq, X) 的 参数 是 状态 gq 和 带 符号 Xx。6(q, X) 的 值 在 有 定义 时 是 三 元 组 p, Y, D), 
其 中 : (1) p 是 下 一 状态 ,属于 Q。(2) ?是 在 当前 扫描 的 单元 中 写 下 的 符号 ， 属 于 代替 
原来 在 那里 的 任何 符号 。(3) D 是 方向 ， 非 L 即 R， 分 别 表示 “ 左 ” 和 “ 右 "， 说 明 带 头 移 
动 方向 。 

qo: 初始 状态 ， 属 于 CQ， 开始 时 有 穷 控 制 就 处 于 这 个 状态 。 

B: 空格 符号 。 这 个 符号 属于 TIT 但 不 属于 卫 ， 即 不 是 输 和 符号。 开始 时 ， 空 格 出 现在 除 包含 
输入 符号 的 有 穷 多 个 初始 单元 之 外 的 所 有 单元 中 。 

下 :终结 状态 或 接受 状态 的 集合 ， 是 C 的 子 集合 。 


8.2.3 图 灵机 的 瞬时 描述 


为 了 形式 化 描述 图 灵机 做 什么 ， 需 要 开发 格局 或 晨 时 描述 (instantaneous description, ID) 的 
记号 ， 类 似 于 曾 为 PDA 开 发 的 记号 。 在 原则 上 ， 图 灵机 有 无 穷 长 的 带 ， 所 以 可 能 认为 不 可 能 简 
短 地 描述 TM 格局 。 但 是 ， 在 任何 有 穷 多 步 移动 之 后 ，TM 只 能 访问 有 穷 多 个 单元 ， 尽 管 访问 过 
的 单元 个 数 可 能 逐渐 超过 任何 有 穷 的 界限 。 因 此 ， 在 任何 ID 中 ， 都 有 未 访问 单元 的 无 穷 单 元 前 
级 和 无 穷 单元 后 缀 。 所 有 单元 都 必须 包含 空格 或 有 穷 多 种 输入 符号 中 的 一 种 。 因 此 在 ID 中 只 说 
明 在 最 左边 与 最 右边 非 空格 之 间 的 单元 。 在 特殊 情况 下 ， 当 带头 正在 扫描 前 面 或 后 面 的 空格 之 
一 时 ， 带 的 非 空格 部 分 的 左边 或 右边 的 有 穷 多 个 空格 也 必须 包含 在 ID 中 。 

除了 表示 带 之 外 ， 还 必须 表示 有 穷 控 制 和 带头 位 置 。 为 此 把 状态 嵌入 在 带 上 ， 放 在 被 扫描 
单元 紧 挨 着 的 左边 。 为 了 消除 “ 带 加 状态 ”的 字符 串 的 歧义 性 ， 就 必须 确保 不 用 任何 是 带 符号 
的 符号 来 作为 状态 。 但 是 ， 容 易 给 状态 改名 ， 使 得 状态 不 与 带 符号 有 共同 的 任何 东西 ， 因 为 TM 
的 操作 不 依赖 于 怎样 称呼 状态 。 因 此 ， 将 要 使 用 字符 串 XX…Xii9XXi,1…X 来 表示 ID， 其 中 

1.4 是 图 灵机 的 状态 。 

2. 带头 正在 扫描 左 起 第 i 个 符号 。 

3.XiX2…Xs 是 带 的 最 左边 与 最 右边 非 空格 之 间 的 部 分 。 例 外 情况 是 ， 如 果 带 头 在 最 左 非 空 
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格 的 左边 或 在 最 右 非 空 格 的 右边 ， 则 XiX2…X, 的 某 个 前 缀 或 后 绥 将 是 空格 ,而 i 分 别 是 1 
或 n。 
用 PDA 用 过 的 ,记号 来 描述 图 灵机 M = (Q, 2,1, ò, qo, B, 下 的 移动 。 当 TM M 是 已 知 时 ， 将 
只 用 上 来 表示 移动 。 和 通常 一 样 ， 将 用 片 ,或 只 用 上 来 表示 TM M 的 零 步 、 一 步 或 多 步 移动 。 
BIRO. Xi) = (p, Y,D; 即 下 一 步 移动 是 向 左 的 。 则 
XXa Xi GX Xi s1 Xa by XiXo Xp apXi Xie eX 
注意 ， 这 个 移动 如 何 表示 变 为 状态 p 和 带头 现在 在 单元 一 1 的 事实 。 有 两 个 重要 的 例外 : 
1. 如果 i= 1， 则 M 移 动 到 Xi 左边 的 空格 。 在 这 种 情况 下 ， 
4X:X2°-Xn bi PBYX2*…X, 
2. 如 果 i=n 且 Y=B， 则 在 X。 上 写 下 的 符号 8 加 入 后 面 空格 的 无 穷 序 列 ， 并 且 不 出 现在 下 一 个 
Dp, At, 
XXa Xo 1gXn by XXX apX 
现在 ,假设 gq,%)=(p,Y,R)， 即 下 一 步 移动 是 向 右 的 。 则 
和 GT 区 和 
这 里 ， 这 个 移动 表示 带头 已 经 移动 到 单元 i+ 1 的 事实 。 同 样 有 两 个 重要 的 例外 ， 
1. 如 果 i=n， 则 第 i+ 1 个 单元 包含 空格 ， 并 且 这 个 单元 不 是 前 一 个 ID 的 一 部 分 。 因 此 ， 相 应 
就 有 
-19X by 第 XXX 2 及 
2. 如 果 i= 1 并 且 Y= B， 则 在 Xi 上 写 下 的 符号 8 加 入 前 面 空格 的 无 穷 序列 ， 并 且 不 出 现在 下 一 
个 ID 中 。 因此， 
GXiX2"* ke pX Xn 


例 8.2 ”设计 图 灵机 并 观察 这 个 图 灵机 在 典型 输入 上 如 何 动作 。 所 构造 的 TM 将 接受 语言 
{0"1" I n> 1]。 开 始 时 ， 在 带 上 给 定 0 和 1 的 有 穷 译 列 ， 前 后 都 是 无 穷 的 空格 。 交 赫 地 ， 这 个 TM 
将 把 一 个 0 改 成 YX， 然后 把 一 个 1 改 成 yY， 直 到 所 有 的 0 和 1 都 已 经 匹配 了 为 止 。 

更 详细 地 说 ， 从 输入 左 端 开 始 ， 进 入 一 个 循环 ， 在 这 个 循环 中 把 一 个 0 改 成 X， 然 后 向 右 移 
动 越过 看 到 的 任何 0 和 和 y， 直 到 到 达 1。 把 这 个 1 改 成 了 Y， 向 左 移动 越过 yj 和 0， 直 到 发 现 一 个 X。 在 
这 个 时 刻 ， 寻 找 右边 紧 挨 着 的 0， 如 果 找 到 0， 就 把 这 个 0 改 成 X， 并 且 重复 上 述 过 程 ， 把 一 个 匹 
配 的 1 改 成 Y。 

如 果 非 空格 输入 不 是 0 的 形式 ， 则 这 个 TM 最 终 将 无 法 进行 下 一 步 移动 ， 并 且 将 死机 而 不 
接受 。 但 是 ， 如 果 这 个 TM 在 把 最 后 一 个 1 改 成 7 的 同一 轮 完 成 了 把 所 有 0 都 改 成 X， 则 这 个 TM 已 
经 发 现 了 输入 具有 0"1" 的 形式 并 接受 。 这 个 TM M 的 形式 化 说 明 是 

M=( {qo, qi, 42, 93, 9s}, {0, 1}, {0, 1, X, Y, B}, 6, qo, B, { qa} ) 
其 中 6 用 图 8-9 中 的 表 来 给 出 。 
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符号 
状态 0 和 x ¥ B 
(QX, R) = oe (qs, Y, R) = 
(a0, R)  (a2,¥,L) ps (qn, Y, R) = 
(gq2;0, L) (go,X,R) (gq2,Y,L) 


= = Sy (as,¥,R) (qs,B,R) 


289999 


图 8-9 接受 {O"l"1n> 1} ROL 


当 M 执 行 其 计算 时 ，M 的 带头 已 经 访问 过 的 这 部 分 带 将 总 是 用 正则 表达 式 X*0"Y"1" 来 描述 的 
符号 序列 。 也 就 是 说 ， 将 有 一 些 0 已 经 改 成 Xx， 接着 是 一 些 还 没有 改 成 X 的 0。 然 后 有 一 些 1 已 经 改 
成 Y， 接 着 是 一 些 还 没有 改 成 Y 的 1。 既 可 能 有 也 可 能 没有 一 些 0 和 1 跟 在 后 面 。 

状态 qo 是 初始 状态 ，M 每 次 回 到 剩 下 最 左边 的 0 时 ，M 也 进入 状态 go。 如 果 M 处 在 状态 qo 并 扫 
描 0， 则 图 8-9 中 左上 角 规 则 说 WM 进 入 状态 9,， 把 0 改 成 X 并 向 右 移动 。 一 旦 进入 4,，M 就 一 直 向 右 
移动 越过 在 带 上 发 现 的 所 有 0 和 Y， 保 持 在 状态 9,。 如 果 M 看 到 X 或 B8， 就 死机 。 但 是 ， 如 果 M 处 在 
状态 4 时 看 到 1， 则 把 这 个 1 改 成 Y， 进 入 状态 9: 并 开始 向 左 移动 。 

在 状态 4 中 ，M 向 左 移动 越过 0 和 Y， 保 持 在 状态 4 中 。 当 M 到 达标 志 着 已 经 改 成 X 的 0 的 块 右 
端的 最 右边 X 时 ，M 就 回 到 状态 qo 并 向 右 移动 。 有 两 种 情况 : 

1. 如 果 M 现 在 看 到 一 个 0， 则 M 重 复 刚刚 描述 过 的 匹配 循环 。 

2. 如果 MM 看 到 一 个 Y， 则 MM 已 经 把 所 有 0 都 改 成 了 X。 如 果 所 有 1 都 已 经 改 成 了 Y， 则 输入 具有 

0"1" 的 形式 ，M 就 应 当 接 受 。 因 此 ，M 进 入 状态 q; 并 开始 向 右 移动 越过 Y。 如 果 M 在 除了 Y 
之 外 看 到 的 第 一 个 符号 是 空格 ， 则 确实 有 相同 数目 的 和 1， 所 以 M 进 入 状态 qs 并 接受 。 另 
一 方面 ， 如 果 M 遇 到 另 一 个 1， 则 有 太 多 的 1， 所 以 M 死 机 而 不 接受 。 如 果 M 遇 到 一 个 0， 
则 输入 具有 错误 形式 ，M 也 死机 。 

下 面 是 W 的 接受 计算 的 例子 。 输 入 是 0011。 开 始 时 ，M 处 于 状态 go， 扫 描 第 一 个 0， 即 W 的 初 

始 ID 是 qu0011。M 的 整个 移动 序列 为 : 
qo0011 H Xq:011 + X0q:11 上 Xg.0¥1 H qaX0Y1 上 上 
Xqu07I 上 XXqi¥1 上 XX¥qi1 | XXqYY | Xq:XYY + 
XXqoYY 上 XXYqsY 上 XXYYg3B | XXYYBqsB 
举 另 一 个 例子 ， 考 虚 M 在 输入 0010 上 做 什么 ， 这 个 输入 不 属于 被 接受 的 语言 。 
490010 上 X9q,010 上 X0qi10 上 Xq,0¥0 上 q2X0¥0 + 
Xqu070 | XXqı YO | XX¥q.0 } XXYOqB 

M 在 0010 上 的 动作 类 似 于 在 0011 上 的 动作 , 直到 在 ID XXY4,0 中 M 第 一 次 扫描 最 后 这 个 0 为 止 。 
M 必 须 向 右 移动 ， 保 持 处 在 状态 q! 中 ， 这 使 得 M 到 达 ID XXY0q,B。 但 是 ， 在 状态 9 中 ，M 在 带 符 
号 B 上 没有 任何 移动 ， 因 此 M 死 机 而 不 接受 输入 。 Oo 


8.24 图 灵机 转移 图 


大 体 类 似 于 对 PDA 的 做 法 ， 可 用 图 形 表示 图 灵机 的 转移 。 转 移 图 包含 对 应 于 TM 状 态 的 节点 
集合 。 用 一 个 或 多 个 形 如 X/YD 的 项 目 来 标记 从 状态 9 到 状态 p 的 弧 ，X 和 2 是 带 符号 ,1D 是 方向 
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( 非 L 即 R)。 也 就 是 说 ， 每 当 5g, 习 = (p, Y, Dt, BRENER LARBRIAXIYD, (BAL, ZEAL 
书 的 图 中 ， 用 图 形 表示 方向 D， 即 用 一 表示 “ 左 "， 用 一 表示 “ 右 ”。 

与 其 他 类 型 的 转移 图 一 样 ， 用 单词 “Start” 表 示 初 始 状态 ， 并 且 有 一 个 箭头 进入 这 个 状态 。 
用 双 圆 环 表示 接受 状态 。 因 此 ，TM 不 能 从 图 中 直接 读 出 的 惟一 信息 就 是 用 来 表示 空格 的 符号 。 
将 假设 这 个 符号 是 B， 除 非 另 有 说 明 。 


例 8.3 图 8-10 显 示例 8.2 中 的 图 灵机 的 转移 图 ， 图 8-9 中 给 出 这 个 图 灵机 的 转移 函数 。 口 


例 8.4 ”尽管 现在 发 现 认为 图 灵机 是 语言 识别 器 ， 或 等 价 地 认为 是 问题 解答 器 ， 这 是 最 方便 
的 ， 但 图 灵 原来 认为 图 灵机 是 整数 值 函数 的 计算 Yı y> 
器 。 在 图 灵 的 框架 中 ， 用 一 进 制 把 整数 表示 成 音 De epee 
一 字符 的 块 ， 机 器 通过 改变 块 长 度 或 在 带 上 别处 mes 
构造 新 块 来 进行 计算 。 在 这 个 简单 例子 中 ， 将 说 
明 图 灵机 如 何 计算 定义 成 m=n = max(m—n, 0) 的 所 
谓 真 减 函数 二 。 也 就 是 说 ， 如 果 mm>n， 则 m=n = 
m-n; 如 果 m < n， 则 m=n =0。 

执行 这 种 运算 的 TM 说 明 如 下 : 

M=( {qo qi qs }, {0, 1}, {0, 1, B}, Ô, qo, B ) 
注意 ， 这 个 TM 不 用 于 接受 输入 ， 所 以 省 略 了 接受 
状态 集合 的 第 7 个 分 量 。M 将 从 空格 围绕 的 0"10" 组 Yı y> 
成 的 带 开始 。MW 停 机 时 带 上 是 空格 围绕 的 0"-。 图 8-10 接受 形 如 0'l" 的 串 的 TM 的 转移 图 

4 重复 地 寻找 剩 下 的 最 左边 0 并 把 这 个 0 换 成 空格 。 然 后 M 向 右 搜索 寻找 1。 在 找到 1 之 后 ， 继 

续 向 右 直 到 到 达 0， 把 这 个 0 换 成 1。M 然 后 回 到 左边 寻找 最 左边 0， 当 M 首 次 遇 到 空格 然后 向 右 移 
动 一 个 单元 时 就 认 出 这 个 0。 当 发 生 下 列 情况 之 一 时 终止 这 种 重复 动作 ， 

1. 在 向 右 搜索 一 个 0 时 M 遇 到 空格 。 则 0"10* 中 的 n 个 0 都 已 经 改 成 1，m 个 0 中 的 n+ 1 个 都 已 经 
BURB, MEn + 1 个 1 都 换 成 8， 再 把 这 n + 1 个 B 中 最 左边 的 8 换 成 0， 在 带 上 剩 下 mn 个 0。 
因为 m>n， 所 以 在 这 种 情况 下 mn = m=n, 

2. 在 循环 开始 时 M 找 不 到 能 改 成 空格 的 0， 因 为 前 m 个 0 都 已 经 改 成 8。 则 n>m， 所 Cm-n = 0。 
M 把 所 有 剩 下 的 1 和 0 都 改 成 8 并 且 结 束 时 带 上 全 是 空格 。 

图 8-11 给 出 转移 函数 5 的 规则 ， 在 图 8-12 中 还 把 6 表示 成 转移 图 。 下 面 总 结 7 种 状态 中 每 一 种 

的 作用 : 

qo: 循环 从 这 个 状态 开始 ， 并 在 适当 时 在 这 个 状态 终止 。 如 果 M 正 在 扫描 0， 则 循环 一 定 重 
复 。 把 这 个 0 改 成 8， 带 头 向 右 移动 ， 进 入 状态 q1。 另 一 方面 ， 如 果 M 正 在 扫描 1， 则 在 
带 上 两 组 0 之 间 所 有 匹配 都 已 经 完成 ，M 进 入 状态 q; 使 带 变 为 空格 。 

a: 在 这 个 状态 中 ，M 向 右 搜索 ， 经 过 第 一 块 9， 寻 找 最 左边 1。 找 到 时 MM 就 进入 状态 q2。 

a: M 向 右 移 动 ， 越 过 1 直到 发 现 0。M 把 这 个 0 改 成 1， 转 而 向 左 并 进入 状态 9;。 但 也 可 能 在 1 
的 块 之 后 没有 剩 下 多 余 的 0。 在 这 种 情况 下 ，M 在 状态 9: 遇 到 空格 。 有 上 面 描述 过 的 情 
形 (1)， 已 经 用 第 二 块 0 中 n 个 0 来 消除 第 一 块 m 个 0 中 的 个， 已 经 完成 减法 ; M 进 入 目标 





Start 
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ga: 


qs: 


qs: 


qs: 


是 把 带 土 1 都 变 成 空格 的 状态 qs。 

MM 向 左 移动 ， 越 过 0 和 1 直到 发 现 空格 。 当 MM 发 现 B 时 ，M 就 向 右 移动 并 回 到 状态 qo， 再 次 
开始 循环 。 

在 这 里 , 已 经 完成 减法 , 但 把 第 一 块 中 一 个 不 匹配 的 0 不 正确 地 改 成 B。M 因 此 向 左 移动 ， 
把 1 都 改 成 8 直到 在 带 上 遇 到 8。M 把 这 个 B 改 回 到 0 并 进入 状态 q6， 在 qe 中 MM 停机 。 

当 MM 发 现 第 一 块 中 所 有 0 都 已 经 改 成 B 时 ， 就 从 状态 qo 进入 状态 qs。 在 这 种 情况 ( 即 上 述 
(2) 中 描述 的 ) 下 ， 真 减 的 结果 是 0。M 把 所 有 剩 下 的 0 和 1 都 改 成 B 并 进入 状态 qe。 

这 个 状态 的 惟一 目标 就 是 当 M 完 成 任务 时 允许 M 停 机 。 假 如 这 个 减法 是 某 个 更 复杂 函数 
的 子 例 程 ， 则 gs 就 启动 更 大 计算 的 下 一 个 步骤 。 口 


符号 
状态 0 1 B 


(qm,B,R) (qs;B,R) 











% 
% | (0,R) (92,1, R) jr 

% | (93,1,L) (q2,1,R) (q,B,L) 
as | (93,0,L) (qs,1,L) (qo, B, R) 
% | (G4,0,L) (quB,L) (ge,0,R) 
as | (%5,B,R) (gs,B,R) (go,B,R) 
ge ak = 


图 8-11 计算 真 减 函数 的 图 灵机 








0/ B> 010 一 
PAR 11B 一 


图 8-12 例 8.4 的 TM 的 转移 图 


8.2.5 图 灵机 的 语言 


已 经 直观 提示 了 图 灵机 接受 语言 的 方式 。 输 入 字符 串 放 在 带 上 ， 带 头 开 始 时 在 最 左边 的 输 
入 符号 上 。 如 果 TM 最 终 进 入 接受 状态 ， 则 接受 和 输入， 否则 就 不 接受 。 
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更 形式 化 地 说 ， 设 M =(O, 2,1, ô, qo, B, F) 是 图 灵机 。 则 LMD) 是 对 于 属于 F 的 某 个 状态 p 以 
及 任意 带 串 c 和 B， 使 得 gow F app H E 中 串 w 的 集合 。 讨 论 例 8.2 中 接受 形 如 0"1 串 的 图 灵机 时 
就 假设 了 这 个 定义 。 

使 用 图 灵机 我 们 可 以 接受 的 语言 集合 通常 称 为 递归 可 枚 举 语 言 或 RE 语言 ,“ 递 归 可 枚 举 ” 
这 个 术语 来 自在 图 灵机 之 前 对 计算 的 形式 化 ， 但 这 个 术语 定义 相同 的 语言 类 或 算术 函数 类 。 
92.1 节 中 将 讨论 这 个 术语 的 起 源 ， 作 为 辅 加 材料 ( 方 框 )。 





图 灵机 的 记号 约定 


通常 采用 的 图 灵机 符号 类 似 于 已 经 见 到 的 对 其 他 类 型 自动 机 采用 的 符号 。 

1. 英语 字母 表 开头 的 小 写字 母 表示 输入 符号 。 

2. 大 写字 母 (通常 是 英语 字母 表 靠 后 的 那些 字母 ) 用 来 表示 带 符号 ， 这 些 符号 既 可 能 
是 输入 符号 也 可 能 不 是 。 但 一 般 用 B 表 示 空 格 符号 。 

3. 英 语 字母 表 靠 后 的 小 写字 母 是 输入 符号 的 串 。 

4. 希腊 字母 是 带 符 号 的 串 。 

5. 诸如 gq,p 这 样 的 字母 和 附近 的 字母 是 状态 。 











8.2.6 图 灵机 与 停机 


常常 把 另 一 种 “接受 ”概念 用 于 图 灵机 : 以 停机 方式 接受 。 如 果 TM 进 入 状态 g， 扫 描 带 符 
号 X， 并 且 在 这 种 情况 下 没有 移动 (Bia 加 无 定义 )， 则 说 TM 停机 。 


例 8.5 ” 例 8.4 的 图 灵机 M 不 是 设计 来 接受 语言 的 ,更 恰当 的 是 认为 这 个 图 灵机 计算 算术 函 
数 。 但 注意 这 个 图 灵机 在 所 有 0 和 1 字符 串 上 都 停机 ， 因 为 无 论 M 在 带 上 发 现 什么 字符 申 ，M 最 
终 都 删除 第 二 组 0 (假如 在 第 一 组 0 之 外 还 能 找到 这 样 一 组 的 话 ) ， 因 此 MM 一定 进入 状态 qe 并 停 
机 。 口 


总 能 假设 如 果 图 灵机 接受 ， 则 图 灵机 停机 。 也 就 是 说 ， 每 当 q 是 接受 状态 时 ， 就 能 让 6(g, X) 
无 定义 ， 这 样 做 不 改变 所 接受 的 语言 。 在 一 般 情况 下 ， 除 非 另 有 说 明 ， 


“假设 图 灵机 处 在 接受 状态 时 总 是 停机 。 


但 是 ， 即 使 TM 不 接受 ， 也 不 总 是 可 能 让 TM 停机 。 无 论 是 否 接受 最 终 都 停机 的 图 灵机 的 语 
言 称 为 递归 的 ， 将 从 9.2.1 节 中 开始 考虑 这 些 语言 的 重要 性 质 。 无 论 是 否 接受 都 总 是 停机 的 图 灵 
机 是 “算法 ”的 好 模型 。 如 果 解 答 给 定 问题 的 算法 存在 ， 则 说 这 个 问题 是 “可 判定 的 "， 所 以 在 
第 9 章 中 ， 总 是 停机 的 TM 在 可 判定 性 理论 中 起 重要 作用 。 


8.2.7 习题 


习题 8.2.1 说 明 图 8-9 中 的 图 灵机 的 ID， 如 果 输 入 带 包 括 ; 
*a)00, 
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b) 000111, 
©) 00111, 
! 习题 8.2;2 设计 接受 下 列 语言 的 图 灵机 : 
w a) 带 有 相同 个 数 的 0 和 1 的 串 的 集合 。 
b) { arbrer In>1}, 
C) { wws1w 是 任意 的 0 和 和 1 的 串 }。 
习题 8.2.3 ”设计 以 二 进 制 数字 N 作 为 输入 并 把 输入 加 1 的 图 灵机 。 准 确 地 说 ， 开 始 时 带 包 含 
着 $ 和 后 面 跟着 的 二 进 制 N。 开 始 时 带头 在 状态 qo 中 扫描 $。 所 设计 的 TM 应 当 停机 ， 停 机 时 带 上 
有 二 进 制 的 N 并 在 状态 ar 中 扫描 N + 1 的 最 左 符号 。 必 要 时 ， 在 产生 N + 1 时 可 消除 $。 例 如 ， 
qo$10011 上 Sd10100， 以 及 qo$11111 上 dr100000。 
a) 给 出 所 设计 的 图 灵机 的 转移 ， 并 解释 每 个 状态 的 目的 。 
b) 当 给 定 输入 $111 时 ， 说 明 TM 的 ID 序列 。 

*! 习题 8.2.4 ”在 本 题 中 ， 讨 论 图 灵机 在 函数 计算 与 语言 识别 之 间 的 等 价 性 。 为 了 简单 起 见 ， 
将 只 考虑 从 非 负 整数 到 非 负 整数 的 函数 ， 但 这 个 问题 的 思想 适用 于 任何 可 计算 函数 。 下 面 是 两 
个 核心 定义 

* 定 义 函 数 的 图 是 所 有 形 如 [x, fo)] 的 串 的 集合 ，x 是 二 进 制 非 负 整 数 ，flx) 是 函数 在 输入 x 
上 也 写成 二 进 制 的 值 。 
* 如 果 开 始 时 在 带 上 有 非 负 整数 x， 图 灵机 停机 (在 任意 状态 ) 并 且 在 带 上 有 二 进 制 的 Ax)， 
则 说 这 个 图 灵机 计算 函数 /。 
用 非 形式 化 但 清楚 的 构造 来 回答 下 列 问题 。 
a) 说 明 给 定 计算 i 机 之 后 ， 如 何 构 造 把 f 的 图 当 作 语言 来 接受 的 图 灵机 。 
b) 说 明 给 定 接受 /的 图 的 图 灵机 之 后 ， 如 何 构 造 计算 f 的 图 灵机 。 
c) 如果 函数 对 于 某 些 参 数 可 能 没有 定义 ， 则 说 这 个 函数 是 部 分 的 (或 偏 的 )。 如 果 把 这 个 习 
题 的 想法 推广 到 部 分 函数 ， 则 当 输 入 x 是 让 fx) 无 定义 的 整数 之 一 时 ， 就 不 要 求 计算 f 的 图 
灵机 停机 。 如 果 函 数 了 是 部 分 的 ， 那 么 读者 对 (a) 和 (b) 部 分 的 构造 还 起 作用 吗 ? 如 果 不 起 
作用 ， 解 释 一 下 可 以 如 何 修改 这 个 构造 使 之 起 作用 。 
习题 8.2.5 考虑 图 灵机 
M=( {qo, q1, q2, q }, {0, 1}, {0, 1,B},6, go, B, {ar } ) 
非 形式 化 但 清楚 地 描述 语言 LM)， 如 果 5 包 含 下 列 规则 集合 : 





*a) 6(qo,0) = (qi, 1,R)s dq',1)=( go,0,R), dq,B)=(g,B,R)。 
b) qo, 0) =( qo, B, R); go, 1)=(q1,B,R); qi, 1)=(q1,B,R)s qı, B) = (qy, B, R), 
te) &qo,0)=( q1, 1, R); Ogi, 1) =(q2,0, L); Sq, 1) =( qo, 1, R); qi, B) = ( qy, B, R), 


8.3 图 灵机 的 程序 设计 技术 


本 节 的 目标 是 让 读者 感受 图 灵机 如 何 能 用 与 常规 计算 机 相同 的 方式 来 计算 。 最 终 ， 和 希望 说 
服 读者 相信 图 灵机 与 常规 计算 机 能 力 恰好 是 相同 的 。 具 体 地 说 ， 将 要 了 解 到 图 灵机 能 在 其 他 图 
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灵机 上 执行 在 8.1.2 节 中 看 到 过 的 程序 检查 其 他 程序 的 那 种 计算 。 正 是 图 灵机 和 计算 机 程序 都 具 
有 的 这 种 “内 省 ”能 力 才 使 我 们 能 够 证 明 问 题 是 不 可 判定 的 。 

为 了 更 清楚 地 揭示 TM 的 能 力 ， 将 提供 许多 例子 说 明 可 能 如 何 考虑 图 灵机 的 带 和 有 穷 控 制 。 
这 些 技巧 不 扩展 TM 的 基本 模型 ， 它 们 只 是 记号 上 的 便利 。 稍 后 ， 将 利用 这 些 技巧 让 基本 TM 模 
型 模拟 具有 附加 特性 (比如 ， 多 带 ) 的 扩展 图 灵机 模型 。 


8.3.1 在 状态 中 存储 


利用 有 穷 控 制 ， 不 仅 能 表示 图 灵机 “程序 ”中 的 位 置 ， 还 能 保存 有 穷 数量 的 数据 。 图 8:13 
说 明 这 种 技术 (和 另 一 个 思想 ,多 道 )。 在 该 图 中 看 到 有 穷 控 制 不 仅 包含 “控制 ”状态 4， 还 包 
含 三 个 数据 元 素 A, 8B, C。 这 种 技术 不 要 求 扩展 TM 模型 ， 只 是 认为 状态 是 元 组 。 在 图 8-13 的 情形 
中 ， 应 当 认为 状态 是 [9, 4, B, C]。 这 样 看 待 状态 就 可 以 以 更 为 系统 化 的 方式 来 描述 转移 ， 常 常 使 
B37) ”得 TM 程序 背后 的 策略 更 加 清楚 。 
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图 8-13 认为 图 灵机 具有 有 穷 控制 存储 和 多 道 


例 8.6 设计 TM 
M=(Q,{0, 1}, {0, 1, B}, 5, [qo, B], B, {lq BI} ) 
这 个 TM 在 有 穷 控制 中 记 住 看 到 的 第 一 个 符号 (0 或 1) ， 并 验证 这 个 符号 不 在 输入 中 别处 出 现 。 
因此 ，M 接 受 语言 01 + 10*。 接 受 诸如 这 个 语言 的 正则 语言 ， 这 并 不 强调 图 灵机 的 能 力 ， 只 是 作 
为 简单 演示 。 
状态 集合 QO 是 {qo,q1} x {0, 1, B}。 也 就 是 说 ， 可 以 认为 状态 是 具有 两 个 分 量 的 有 序 对 ， 
a) 控制 部 分 (qika) 记 住 TM 正 在 做 什么 。 控制 状态 qo 表示 M 还 没有 读 第 一 个 符号 ，gq 表 示 
MM 已 经 读 了 这 个 符号 ， 并 正在 通过 向 右 移动 希望 到 达 空格 单元 来 验证 这 个 符号 不 在 别处 
出 现 。 
D 数据 部 分 记 住 看 到 的 第 一 个 符号 (一 定 是 0 或 1) 。 这 个 分 量 中 的 8 意味 着 还 没有 读 符号 。 
M 的 转移 函数 56 如下: 
1. 对 于 a = 0 或 4 = 1，56[q, B), a) = (lgi, al, a, R)。 开 始 时 ,go 是 控制 状态 ;其 数据 部 分 是 B; 
M 把 扫描 符号 复制 到 状态 第 二 个 分 量 中 ， 并 向 右 移 动 ， 在 这 样 做 时 进入 控制 状态 qi。 
2. 6((4,,41.@) = ([q1,a],a,R)， 其 中 a 是 a 的 “ 补 "， 也 就 是 说 ， 如 果 a = 1 则 届 是 0， 如 果 a = 0 
则 5 是 1。 在 状态 q,，1 越 过 与 状态 中 所 保存 符号 不 同 的 每 个 符号 0 或 1， 并 连续 向 省 移动 : 
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3. 对 于 a = 0 或 a =1, liq, al, B)= (gi. Bl, B, R)。 如 果 M 到 达 第 一 个 空格 ， 则 MM 进入 接受 状 


Alai, B]. 
注意 ， 对 于 a = 0 或 4 = 1，M 对 于 6([9,, ah a) 没有 定义 。 因 此 ， 如 果 MM 遇 到 开始 时 有 穷 控 制 中 
保存 的 符号 第 二 次 出 现 ， 则 M 停 机 而 不 进入 接受 状态 。 口 
8.3.2 多 道 


另 一 种 有 用 “技巧 ”是 认为 由 几 个 道 组 成 图 灵机 的 带 。 每 道 可 包含 一 个 符号 ， 由 多 元 组 组 
成 图 灵机 带 字母 表 ， 每 “ 道 ”对 应 一 个 分 量 。 因此， 例如 图 8-13 中 带头 扫描 的 单元 包含 着 符号 
(X,Y, 习 。 类 似 于 在 有 穷 控制 中 存储 的 技术 ， 使 用 多 道 并 不 扩展 图 灵机 所 能 做 的 。 这 只 是 考虑 带 
符号 并 想像 带 符号 具有 有 用 结构 的 一 种 方式 。 


例 8.7 ”多 道 的 常见 用 法 是 认为 一 个 道 包含 数据 ， 第 二 道 包含 标记 。 在 “使 用 ”符号 时 能 核 
对 每 个 符号 ， 或 只 标记 数据 中 少量 位 置 来 跟踪 这 些 位 置 。 例 8.2 和 例 8.4 是 这 种 技术 的 两 个 例子 ， 
但 在 这 两 个 例子 中 没有 明确 地 认为 带 由 道 组 成 。 在 目前 的 例子 中 将 要 明确 地 使 用 第 二 道 来 识别 
上 下 文 无 关 语 言 

Loew ={wcw1w 属 于 (0+1D*} 
将 要 设计 的 图 灵机 是 
M=(Q, 2,T,6, qı, B), [B, B], {[qs, B]} ) 
其 中 : 
Q: 状态 的 集合 是 {gn, qi …, go} x {0, 1, 8}， 即 由 控制 状态 g; 和 数据 分 量 0 或 1 组 成 的 有 序 对 。 
再 次 使 用 在 有 穷 控制 中 存储 的 技术 ， 因 为 允许 状态 去 记忆 输入 符号 0 或 1。 
T: 带 符号 的 集合 是 {B, +} x {0, 1, c, B}。 第 一 分 量 (或 道 ) 可 以 是 空格 或 “已 核对 "， 分 别 
用 符号 B 和 * 来 表示 。 用 符号 * 来 核对 第 一 组 和 第 二 组 的 0 和 和 1， 最 终 确认 中 心 标记 c 左 边 的 
串 与 右边 的 串 是 相同 的 。 认 为 带 符号 第 二 分 量 是 带 符号 本 身 。 也 就 是 说 ， 可 认为 对 于 X 
= 0, 1,c,B， 符 号 [B, XLEWSX, 

X: 输入 符号 是 [8,0]，[B, 和 [B,c]， 就 像 上 面 提 到 的 ，0，1 和 C 分 别 进行 识别 。 

ô: 下 列 规则 定义 转移 函数 5， 其 中 a 和 5 可 表示 0 或 1。 

1) ((q1, B), (B, al) = (Iga, al, [*, á]; R). 在 初始 状态 中 ，M 读 入 符号 a (a 可 以 是 0 或 1)， 在 
有 穷 控制 中 保存 a， 进 入 控制 状态 9?:,“ 核 对 ”刚刚 扫描 的 符号 ”并 向 而 移动 ; 注意 ， 
通过 把 带 符号 第 一 分 量 从 B 改 成 * 来 进行 核对 。 

2) &[g2, a], [B, b]) = (92, a), [8,5b],R)。M 向 右 移动 寻找 符号 c。 读 者 要 记 住 a 和 5b 相互 独立 ， 
每 个 都 能 是 0 或 1， 但 不 能 是 c。 

3) &(lq2, a), [B, cl) = ([ga,al,[B,cl,R)。 当 M 找 到 c 时 继续 向 右 移动 ， 但 变 成 控制 状态 qi。 

4) [qs, al [*, b]) = ([q3, a], [*,b], R). 在 状态 q; 中 ，M 继 续 越过 所 有 已 核对 的 符号 。 

5) Kgs, a], [B, a]) = (19s, B), [*, a], L). 如果 M 找 到 的 第 一 个 未 核对 符号 与 有 穷 控 制 中 符 
号 相同 ， 则 核对 这 个 符号 ， 因 为 这 个 符号 已 经 匹配 了 第 一 个 0O 和 1 块 中 的 对 应 符号 。M 
进入 控制 状态 9*， 清 除 有 穷 控 制 中 符号 ， 并 开始 向 左 移动 。 
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6) fgs, B], [*, a]) = (qs, B];[*, qa], DM 向 左 移动 越过 已 核对 符号 。 

7) [qs, B], [B, c]) = (lgs, B], [B, c], LD)。 当 M 遇 到 符号 c 时 M 切 换 到 状态 qs 并 继续 向 左 。 在 
状态 9 中 ， 根 据 紧 挨 在 c 左 边 的 符号 是 否 被 核对 ，M 必 须 做 出 判断 。 如 果 被 核对 ， 则 已 
经 考虑 了 整个 第 一 个 0 和 和 1 块 (都 在 c 的 左边 )。 必 须 保证 < 右边 的 所 有 0 和 1 也 都 被 核对 。 
如 果 紧 挨 在 c 左 边 的 符号 没有 核对 过 ， 则 找 出 最 左边 没有 未 核对 的 符号 ， 读 入 这 个 符 
号 ， 并 在 状态 4 中 开始 循环 。 

8) lgs; B], [B, al) = (fgs, B), [B, a), 上)。 这 个 分 支 适 用 于 c 左 边 的 符号 没有 核对 过 的 情形 。 
M 进 入 状态 gs， 并 继续 向 左 寻 找 已 核对 的 符号 。 

9) Kgs, B), [B, a]) = ([qs, B], [B, al, L)。 只 要 还 未 核对 的 符号 ，M 就 保持 在 状态 qe 中 并 继 
续 向 左 。 

10) &lgs, Bl, [*, al) = ([q1, B), [*, a], R)。 当 M 找 到 已 核对 的 符号 时 就 进入 状态 q1， 并 向 右 
移动 来 读 入 第 一 个 未 核对 的 符号 。 

11) &[gs, B), [*, al) = (lq, B], [*, a), R)。 现 在 ， 看 看 从 状态 qs 发 出 的 分 支 ， 其 中 刚刚 从 ce 


向 左 移动 并 发 现 一 个 已 核对 的 符号 。 再 次 开始 向 右 移 动 并 进入 状态 q7。 

12) 5[9, B), [B, cl) = ([qs, B], [B, cl, R)。 在 状态 9 中 肯定 将 看 到 c。 此 后 进入 状态 gs 并 向 
右 移动 。 

13) [gs, B], [*, al) = ([gs, B], [*, a], R)。 在 状态 qs 中 ，M 向 右 移动 ， 越 过 所 有 发 现 的 已 核 
对 的 0 或 1。 

14) &[qs, B], (B, B]) = ([gs, B], [B, B], R)。 如 果 M 在 状态 qs 中 到 达 空 格 且 没有 遇 到 任何 未 选 
中 的 0 或 1， 则 MM 接受 。 如 果 MM 先 发 现 未 核对 的 0 或 1， 则 说 明 在 前 后 的 块 不 匹配 ，M 
停机 而 不 接受 。 o 

83.3 子 程序 


像 一 般 情 况 下 对 于 程序 那样 ， 认 为 图 灵机 是 由 一 组 交互 作用 的 构件 或 “ 子 程序 ”来 建立 的 ， 
这 是 有 帮助 的 。 图 灵机 子 程序 就 是 执行 某 个 有 用 程序 的 状态 集合 。 这 个 状态 集合 包含 初始 状态 
和 另 一 个 暂时 没有 移动 的 状态 ， 后 面 这 个 状态 是 “返回 ”状态 ， 作 用 是 把 控制 交 回 到 调用 子 程 
序 的 任何 其 他 状态 的 集合 。 每 当 存在 到 初始 状态 的 转移 时 就 发 生子 程序 “调用 ”。TM 无 法 记 住 
“返回 地 址 ”( 即 子 程序 结束 后 进入 的 状态 )， 所 以 假如 TM 设计 要 求 从 多 个 状态 调用 一 个 子 程序 ， 
则 可 复制 子 程序 ,对 每 个 副本 使 用 新 的 状态 集合 。 对 于 子 程序 不 同 副本 的 初始 状态 发 出 “调用 ”， 
每 个 副本 都 “返回 ”到 不 同 状态 。 


例 8.8 ”将 设计 TM 来 实现 “乘法 ”函数 。 也 就 是 说 ， 设 计 的 TM 将 从 带 上 的 0"10"i 开 始 ， 将 
以 让 0" 在 带 上 结束 。 这 种 策略 的 要 点 是 : 
1 一般 情况 下 ， 对 于 某 个 k， 带 上 将 有 形 如 010"10" 的 非 空格 串 。 
2. 在 一 个 基本 步 喉 中 ,把 第 一 组 中 一 个 0 改 成 8， 并 向 最 后 一 组 加 入 n 个 0， 得 出 形 如 07'10"104 + 
的 串 。 
3. 结果 是 把 "个 0 的 组 向 末尾 复制 了 六 次 ， 每 次 把 第 一 组 中 一 个 0 改 成 B。 当 第 一 组 中 0 全 部 改 
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成 空格 时 ， 最 后 一 组 中 将 有 mm 个 0。 
4. 最 后 步 又 是 把 开头 的 10"1 改 成 空格 ， 然 后 完成 所 有 操作 。 
这 个 算法 的 核心 是 称 为 Copy 的 子 程序 。 这 个 子 程序 帮助 实现 上 述 步 难 (2), 把 n 个 0 的 块 复制 
到 末尾 。 更 准确 地 说 ，Copy 把 形 如 0~*1g10"10 呈 ”的 ID 变 成 ID 0"*1qs0"10m。 图 8-14 说 明子 程序 
Copy 的 转移 。 这 个 子 程序 用 X 标 记 第 一 个 0， 在 状态 q: 中 向 右 移动 直到 找到 空格 为 正 ， 把 0 复制 
到 这 里 ， 在 状态 9* 中 向 左 移动 来 寻找 标记 X。Copy 重 复 这 个 循环 直到 在 状态 9i 中 找到 1 而 不 是 0。 
在 这 个 时 刻 ，Copy 用 状态 qs 把 X 改 回 到 0， 并 在 状态 4 中 结束 。 








图 8-14 子 程序 Copy 
完整 的 乘法 图 灵机 在 状态 go 中 开始 。 图 灵机 做 的 第 一 件 事情 是 在 几 步 之 内 从 ID qu0"10" 进入 


ID 0"…'14,0"。 在 图 8-15 子 程序 调用 左边 的 部 分 中 显示 所 需要 的 转移 ， 这 些 转移 只 涉及 状态 ao 
和 ge。 








(@) 

o> 
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OB 
图 8-15 完整 的 乘法 程序 使 用 子 程序 copy 


然后 ， 在 图 8-15 子 程序 调用 的 右边 看 到 状态 4) 到 4p。 状 态 9 qs 4* 的 目标 是 在 copy 刚刚 复制 
了 一 块 0 并 处 在 ID 0"…“*14s0"10” 之 后 接 过 控制 。 最 终 ， 这 些 状态 到 达 状态 qu0"-*10"10w。 在 这 个 时 
刻 ， 循 环 再 次 开始 ， 又 调用 Copy 来 复制 "个 0 的 块 。 
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例外 的 情况 是 在 状态 qs 中 TM 可 能 发 现 所 有 0 都 已 经 改 成 空格 (Mk= m). 在 这 种 情况 下 ， 发 
生 到 达 状 态 qu 的 转移 。 在 状态 qu 的 协助 下 ， 这 个 状态 把 开头 的 10"1 改 成 空格 并 进入 停机 状态 q12。 
在 这 个 时 刻 ，TM 处 在 ID q0 中 ， 其 工作 已 经 完成 。 口 


8.3.4 习题 


! 习题 8.3.1 重新 设计 习题 8.2.2 中 图 灵机 以 利用 在 8.3 节 中 讨论 的 程序 设计 技术 。 

! 习题 8.3.2 在 图 灵机 程序 中 常见 的 操作 是 “平移 "。 在 理想 情况 下 ,希望 在 当前 带头 位 置 产 生 
能 保存 某 个 字符 的 额外 单元 。 但 不 能 以 这 种 方式 编辑 带 。 更 适当 的 方式 是 ， 需 要 把 当前 带头 位 置 
右边 每 个 单元 内 容 都 向 右 移动 一 个 单元 ， 然 后 设法 返回 到 当前 带头 位 置 。 说 明 如 何 执行 这 种 操 
作 。 提 示 : 留 下 特殊 符号 来 标记 带头 必须 返回 的 位 置 。 

* 习题 8.3.3 ”设计 子 程序 把 TM 带头 从 当前 位 置 向 右 移动 、 越过 所 有 0 直至 到 达 1 或 空格 为 止 。 
如 果 当前 位 置 不 包含 0， 则 TM 应 当 停机 。 可 以 假设 没有 除了 0,1, 3 (空格 ) 以 外 的 带 符号 。 然 后 ， 
使 用 这 个 子 程序 设计 接受 没有 两 个 连续 1 的 所 有 的 0 和 1 的 串 的 TM。 


8.4 基本 图 灵机 的 扩展 


在 本 节 中 ， 将 要 看 到 与 图 灵机 有 关 并 与 一 直 使 用 的 TM 基 本 模型 有 相同 语言 识别 能 力 的 某 些 
计算 机 模型 。 其 中 一 种 模型 (多 带 图 灵机 ) 是 很 重要 的 ， 因 为 与 一 直 研究 的 单 带 模型 相 比 ， 更 
容易 看 出 多 带 TM 能 如 何 模拟 真实 计算 机 (或 其 他 类 型 图 灵机 ) 。 就 接受 语言 的 能 力 而 言 ， 额 外 
的 带 并 不 增加 模型 的 能 力 。 

然后 考虑 非 确定 型 图 灵机 ， 即 对 基本 模型 的 扩展 ， 允 许 非 确定 型 图 灵机 在 给 定 情况 下 选择 
有 穷 多 种 移动 中 的 任意 一 种 。 在 某 些 环境 下 ， 这 种 扩展 也 使 得 更 容易 给 图 灵机 进行 “程序 设计 ”， 
但 并 不 增加 基本 模型 的 语言 定义 能 力 。 


8.4.1 多 带 图 灵机 


多 带 TM 如 图 8-16 所 示 。 这 个 装置 具有 有 穷 控 制 (状态 )， 以 及 某 个 有 穷 数目 的 还 。 每 个 带 
都 划分 成 单元 ， 每 个 单元 都 包含 有 穷 字母 表 的 任意 符号 。 同 在 单 带 TM 中 一 样 ， 带 符号 集合 包含 
空格 ， 并 有 所 谓 输 入 符号 的 子 集合 ,空格 不 属于 输 大 符号 。 状 态 集合 包含 初始 状态 和 一 些 接受 
状态 。 开 始 时 ， 

1. 输 入 ( 即 输 入 符号 的 有 穷 序 列 ) 放 在 第 一 条 带 上 。 

2. 所 有 带 的 所 有 其 他 单元 都 包含 着 空格 。 

3. 有 穷 控制 处 在 初始 状态 中 。 

4. 第 一 条 带 的 带头 在 输入 左 端 。 

5 所 有 其 他 带头 都 在 某 个 任意 单元 中 。 因 为 除 第 一 条 带 之 外 所 有 带 都 完全 是 空格 ， 所 以 开 

始 时 带头 放 在 何 处 是 无 所 谓 的 ;这 些 带 的 任何 单元 “看 起 来 ”都 一 样 。 

多 带 TM 的 移动 依赖 于 状态 和 每 个 带头 扫描 的 符号 。 在 一 步 移动 中 ， 多 带 TM 做 下 列 工作 ， 

1. 控制 进入 新 状态 ， 新 状态 与 前 一 个 状态 可 能 相同 。 

2 在 每 个 带 上 ， 在 扫描 的 单元 中 写 新 的 带 符号 。 新 符号 中 的 任何 一 个 与 从 前 在 那里 的 符号 
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都 可 能 相同 。 
3. 每 个 带头 移动 ， 可 能 向 左 、 向 右 或 静止 。 这 些 带头 独立 移动 ， 所 以 不 同 的 带头 能 在 不 同 
方向 上 移动 ， 某 些 带头 可 能 根本 不 动 。 
我 们 将 不 给 出 转移 规则 的 形式 化 记号 ， 除 了 现在 选择 L, R, 5 来 表示 方向 之 外 ， 其 形式 是 单 带 
TM 记号 的 直接 推广 。 不 允许 单 带 机 器 带头 保持 静止 ， 所 以 没有 5 选项 。 读 者 应 当 能 够 设想 出 多 
带 TM 格 局 瞬时 描述 的 适当 记号 ， 本 书 将 不 形式 化 地 给 出 这 种 记号 。 类 似 于 单 带 TM， 多 带 图 灵 
机 以 进入 接受 状态 的 方式 来 接受 。 























图 8-16 多 带 图 灵机 


8.4.2 单 带 图 灵机 与 多 带 图 灵机 的 等 价 性 


回忆 一 下 ， 递 归 可 枚 举 语言 定义 为 单 带 TM 所 接受 的 语言 ;的 确 ， 多 带 TM 接 受 所 有 递归 可 
枚 举 语言 ， 因 为 单 带 TM 也 是 多 带 TM。 然 而 ， 有 没有 不 是 递归 可 枚 举 的 而 多 带 TM 却 接受 的 语 
言 ? 回答 是 “没有 ”"， 本 节 通 过 说 明 单 带 TM 如 何 模拟 多 带 TM 来 证 明 这 个 事实 。 


定理 8.9 多 带 TM 接 受 的 每 个 语言 都 是 递归 可 枚 举 的 。 

证 明 证 明 如 图 8-17 所 示 。 假 设 k 带 TM M 接 受 语言 L。 用 认为 具有 2k 道 的 带 的 单 带 TM N 来 模 
拟 M。 这 些 道中 的 一 半 包 含 M 的 带 ， 这 些 道中 的 另 一 半 每 个 都 只 包含 表示 M 相 应 带头 目前 位 于 何 
处 的 一 个 标记 。 图 8-17 假 设 k = 2。 第 2 道 和 第 4 道 包含 M 的 第 一 条 和 第 二 条 带 的 内 容 ， 道 1 包含 第 
一 条 带 的 带头 位 置 ， 道 3 包含 第 二 条 带 的 带头 位 置 。 

为 了 模拟 M 的 移动 ，N 的 带头 必须 访问 k 个 带头 标记 。 所 以 为 了 不 遗漏 NW， 在 任何 时 刻 ， 必 须 
记 住 在 N 的 左边 有 多 少 个 带头 标记 ， 这 个 计数 保存 在 N 的 有 穷 控制 的 分 量 中 。 在 访问 每 个 带头 标 
记 并 在 有 穷 控 制 中 保存 扫描 的 符号 之 后 ，N 就 知道 M 的 每 个 带头 正在 扫描 什么 带 符号 。N 也 知道 
在 N 自 身 的 有 穷 控 制 中 所 保存 的 M 的 状态 。 因 此 ，N 知 道 M 将 做 何 种 移动 。 

现在 访问 N 的 带 上 的 每 个 带头 标记 ， 改 变 表示 M 相 应 带 的 道中 的 符号 ， 必要 时 间 左 或 向 
移动 带头 标记 。 最 后 ，N 改 变 在 自身 的 有 穷 控 制 中 所 记录 的 M 的 状态 。 到 了 这 个 时 刻 ，N 就 模拟 
了 M 的 一 步 移动 。 
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图 8-17 单 带 图 灵机 模拟 两 带 图 灵机 


挑选 那些 记录 M 的 状态 为 M 的 接受 状态 之 一 的 状态 来 作为 N 的 接受 状态 。 因 此 ， 每 当 被 模拟 
的 M 接 受 时 ，N 也 接受 ， 否 则 ，N 不 接受 。 口 




















关于 有 穷 性 的 提示 


常见 错误 是 将 在 任何 时 刻 都 是 有 穷 的 值 与 值 的 有 穷 集合 混淆 。 多 带 合 一 的 构造 可 能 有 
助 于 理解 这 种 差别 。 在 这 个 构造 中 ， 用 带 上 的 道 来 记录 带头 位 置 。 为 什么 不 在 有 穷 控 制 中 
用 整数 保存 这 些 位 置 呢 ? 在 没有 仔细 考虑 的 情况 下 ， 可 能 论证 在 n 步 移动 之 后 ，TM 的 带头 
位 置 一 定 在 初始 带头 位 置 周围 "个 位 置 以 内 ， 所 以 带头 只 需要 保存 不 超过 mn 的 整数 。 

问题 是 ， 虽 然 在 任何 时 刻 这 些 位 置 都 是 有 穷 的 ， 但 在 任何 时 刻 可 能 位 置 的 完整 集合 却 
是 无 穷 的 。 如 果 状 态 将 要 表示 任何 带头 位 置 ， 则 状态 必须 有 数据 分 量 取 任意 整数 作为 值 。 
尽管 在 任何 有 穷 时 刻 只 能 用 到 有 穷 多 个 状态 ， 但 这 个 分 量 却 迫 使 状态 集合 是 无 穷 的 。 图 灵 


机 定义 要 求 状态 的 集合 是 有 穷 的 。 因 此 ， 不 允许 在 有 穷 控 制 中 保存 带头 位 置 。 
Bus 


8.4.3 运行 时 间 与 多 带 合 一 构造 


现在 介绍 稍 后 将 变 得 非常 重要 的 概念 :图 灵机 的 “时 间 复杂 度 ”或 “运行 时 间 ”。 说 TM M 
在 输入 w 上 的 运行 时 间 是 M 在 停机 之 前 移动 的 步 数 。 如 果 M 在 w 上 不 停机 ， 则 M 在 w 上 的 运行 时 间 
是 无 穷 的 。TM M 的 时 间 复 杂 度 是 在 所 有 长 度 为 n 的 输入 上 取 M 在 w 上 运行 时 间 最 大 值 的 函数 
T(n)。 对 于 不 在 所 有 输入 上 停机 的 图 灵机 ， 对 于 某 些 或 甚至 所 有 n，T(n) 可 能 是 无 穷 的 。 但 是 ， 
我 们 将 特别 注意 在 所 有 输入 上 停机 的 TM， 具 体 地 说 ， 就 是 具有 多 项 式 时 间 复 杂 度 T() 的 TM， 
10.1 节 开始 这 种 研究 。 

定理 8.9 的 构造 似乎 是 笨拙 的 。 事 实 上 ， 所 构造 的 单 带 TM 可 能 比 多 带 TM 花费 更 多 的 运行 时 
间 。 不 过 ， 不 严格 地 说 ， 这 两 个 图 灵机 所 花费 的 时 间 是 相称 的 : 单 带 TM 所 花费 时 间 不 超过 另 一 
个 TM 所 花费 时 间 的 平方 。“ 平 方 ”不 是 非常 强 的 保证 ， 但 它 确保 了 多 项 式 运行 时 间 。 在 第 10 章 
中 将 看 到 : 

8) 在 多 项 式 时 间 和 更 高 增长 率 之 间 的 运行 时 间 差别 ， 的 确 是 能 用 计算 机 解决 的 问题 与 在 实 

践 中 不 可 解决 的 问题 之 间 的 分 界 。 
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b) 尽管 有 深入 研究 ， 但 还 没有 把 解答 许多 问题 所 需要 的 运行 时 间 落 实 到 比 在 某 个 多 项 式 之 
内 更 准确 的 地 步 。 因 此 ， 检 查 解答 具体 问题 的 运行 时 间 时 ， 是 否 使 用 单 带 或 多 带 TM 来 解 
答 问题 这 个 疑问 并 非 关键 。 

单 带 TM 和 多 带 TM 的 运行 时 间 不 超过 彼此 的 平方 ， 论 证 如 下 。 


定理 8.10 定理 8.9 的 单 带 TM N 为 模拟 K 带 TM M 的 n 步 移动 而 花费 的 时 间 是 O(n?)。 

证 明 ”在 M 的 n 步 移动 之 后 ， 带 头 标记 不 可 能 相距 超过 2 个 单元 。 因 此 ， 如 果 N 从 最 左 标 记 
上 开始 ， 则 4 为 找 出 所 有 带头 标记 就 没有 必要 向 右 移动 超过 2n 个 单元 。M 可 以 接着 向 左 移动 一 遍 ， 
改变 所 模拟 的 W 带 的 内 容 ， 根 据 需要 向 左 或 向 右 移动 带头 标记 。 做 这 些 工作 需要 不 超过 2n 个 向 
左 移动 ， 以 及 至 多 2K 个 移动 ， 以 便 掉 转 方向 并 在 右边 单元 中 写 下 标记 X (在 M 的 带头 向 右 移动 的 
情况 下 )。 

因此 ， 模 拟 前 n 个 移动 之 一 所 需要 的 由 N 所 做 的 移动 数 不 超 过 4n + 2k。 因 为 k 是 独立 于 所 模拟 
移动 数 的 常数 ， 所 以 这 个 移动 数 是 0(n)。 模 拟 n 个 移动 所 需要 的 移动 数 不 超 过 这 个 数量 的 n 倍 ， 
BPO?) o 


8.4.4 非 确定 型 图 灵机 





非 确定 型 图 灵机 (NTM) 与 一 直 研 究 的 确定 型 变 体 的 不 同 之 处 在 于 ，NTM 具 有 转移 函数 6 

使 得 对 于 每 个 状态 9 和 带 符 号 X，&g, 罗 是 三 元 组 的 集合 

{ (qi, Yi, Di), (qa, Ya, Da), (ge Yi, Dd) } 
其 中 是 任意 有 穷 整 数 。NTM 每 步 能 选择 三 元 组 中 任何 一 个 作为 下 一 步 移动 。 不 过 ，NTM 不 能 
从 一 个 三 元 组 中 选择 状态 ， 而 从 另 一 个 三 元 组 中 选择 带 符 号 ， 并 从 第 三 个 三 元 组 中 选择 方向 。 

毫 不 意外 ，NTM M 所 接受 语言 的 定义 方式 类 似 于 已 经 研究 过 的 诸如 NFA 和 PDA 的 其 他 非 确 
定型 装置 。 也 就 是 说 ， 如 果 存 在 移动 选择 的 任意 序列 ， 从 以 w 为 输入 的 初始 ID 导致 具有 接受 状态 
的 ID， 则 M 接 受 输入 。 其 他 不 导致 接受 状态 选择 序列 的 存在 是 无 关 紧要 的 ， 这 与 NFA 或 PDA 的 
情形 一 样 。 

NTM 不 接受 确定 型 TM ( 即 DTM， 如 需 强调 是 确定 型 的 ) 所 不 接受 的 任何 语言 。 这 个 证 明 
涉及 证 明 对 于 每 个 NTM Mv， 能 构造 DTM Mo 探索 WMw 通过 任何 选择 序列 所 能 到 达 的 ID。 如 果 Mo 
找到 具有 接受 状态 的 ID， 则 Mo 进入 自身 的 接受 状态 。Mo 一 定 是 系统 化 的 ， 把 新 ID 放 在 队列 中 
而 不 是 堆栈 中 ， 使 得 对 于 k= 1,2, …， 在 某 个 有 穷 时 间 之 后 Mo 已 经 模拟 了 My 不 超过 k 步 移动 的 所 
有 序列 。 


定理 8.11 如 果 Mw 是 非 确 定型 图 灵机 ， 则 存在 确定 型 图 灵机 Mo 使 得 LMW) = L(Mp), 

证 明 ”Mb 将 设计 成 图 8-18 中 勾画 的 多 带 TM。Mo 的 第 一 条 带 包含 Mw 的 人 DD 序列， 包括 Mi 的 
状态 。Mw 的 一 个 ID 标 记 为 “当前 ”ID， 其 后 继 ID 都 处 于 正在 被 探索 的 过 程 中 。 在 图 8:18 中 ， 用 
一 个 X 和 ID 间 的 分 隔 符 来 标记 第 三 个 ID， 分 隔 符 是 *。 当 前 ID 左 边 的 所 有 ID 已 经 被 探索 过 了 ， 以 
后 可 忽略 。 


四 
à 
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图 8-18 DTM 模 拆 NTM 


为 了 处 理 当前 ID，Mo 做 下 列 工作 : 

1. Mo 检查 当前 ID 的 状态 和 扫描 的 符号 。 对 于 每 种 状态 和 符号 ，Mw 有 什么 移动 选择 的 知识 
已 经 固定 在 Mo 的 有 穷 控制 中 。 如 果 当 前 ID 中 状态 是 接受 的 ， 则 Mo 接受 并 且 不 再 继续 模 
所 My。 

2. 但 如 果 这 个 状态 不 是 接受 的 ， 并 且 这 种 带 -- 符 号 的 组 合 有 k 种 移动 ， 则 M6 用 第 二 条 带 复制 
这 个 ID， 然 后 在 带 ! 上 在 ID 序列 未 尾 把 这 个 ID 复制 4 遍 。 

3. 根 据 Mw 具 有 从 当前 ID 的 种 移动 选择 的 不 同 选择 ，M。 修 改 这 k 个 ID 中 的 每 一 个 。 

4. Mo 回 到 被 标记 的 当前 ID， 删 除 标记 ， 并 把 标记 移动 到 右边 的 下 一 个 ID。 整 个 循环 接着 在 

步骤 (1) 开 始 重复 。 

仅 当 Mo 发 现 Mw 能 进入 接受 ID 时 Mo 才 接 受 ， 在 这 个 意义 下 ,模拟 是 精确 的 ， 这 应 该 是 清楚 
的 。 但 需要 确认 ， 如 果 Mw 在 一 系列 n 个 自身 移动 之 后 进入 接受 [D， 则 Mo 最 终 将 让 这 个 ID 成 为 当 
前 ID 并 将 接受 。 

假设 m 是 Mw 在 任何 格局 中 具有 的 最 大 选择 数 。 于 是 存在 Mw 的 一 个 初始 ID， 在 一 步 移动 之 后 
Mn 能 到 达 至 多 m 种 ID， 在 两 步 移动 之 后 Mw 能 到 达 至 多 mr 种 ID， 依 此 类 推 。 因 此 ， 在 n 步 移动 之 
后 Ms 能 到 达 至 多 1 + m+ me+ … +m 种 ID。 这 个 数字 至 多 是 mmm 种 ID。 

Mo 探索 Mw 的 ID 的 顺序 是 “宽度 优先 ”的 ， 也 就 是 说 ，Mo 探索 所 有 0 步 可 达 的 ID ( 即 初始 
世 )， 然 后 探索 所 有 1 步 可 达 的 ID， 然 后 探索 所 有 2 步 可 达 的 ID， 依 此 类 推 。 具 体 地 说 ，Mo 在 考 
虐 只 有 经 过 超过 mn 步 移动 才 可 达 的 任何 ID 之 前 ， 将 考虑 把 不 超过 mn 步 就 可 达 的 所 有 ID 作为 当前 ID 
并 考虑 其 后 继 ID。 

结果 是 Mo 将 在 所 考虑 的 前 mm 个 ID 中 考虑 到 Mv 的 接受 ID。 只 关心 Ms 在 某 个 有 穷 时 间 之 内 
考虑 这 个 ID， 而 这 个 边界 足以 保证 最 终 考虑 到 接受 ID。 因 此 ， 如 果 My 接受 ,| 则 Mo 也 接受 。 由 
于 我 们 已 经 注意 到 如 果 Mo 接 受 ， 则 这 样 做 只 是 因为 My 接受 ， 所 以 结论 是 LMN) = L(Mp), o 


注意 ， 所 构造 的 确定 型 TM 可 能 要 比 非 确定 型 TM 多 花费 指数 时 间 。 还 不 知道 这 种 指数 减速 
是 否 必要 。 事 实 上 ， 第 10 章 将 研究 这 个 问题 以 及 有 人 发 现 确定 地 模拟 NTM 的 更 好 方法 的 后 果 上 。 
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845 习题 


习题 8.4.1 ” 非 形式 化 但 清楚 地 描述 接受 习题 8.2.2 的 每 个 语言 的 多 带 图 灵机 。 尝 试 让 每 个 图 
灵机 在 与 输入 长 度 成 比例 的 时 间 里 运行 。 
习题 8.4.2 这 里 是 非 确定 型 TM M = ({go, qı 42}, {0, 1}, {0, 1, B}, Ô, qo, B, {qz}) 的 转移 函数 : 


a 1 B 


{(go, 1, R)} {(q1,0, R)} 
Lao, R), (go, 0, L)} {lau R), (go, 1,L)} æn, R)} 








b 
说 明 从 初始 ID 可 达 的 ID， 如 果 输 入 是 : 
*a)0l, 
b) O11, 

! 习题 8.4.3 。 非 形式 化 但 清楚 地 描述 接受 下 列 语言 的 非 确定 型 图 灵机 (如 果 读者 愿意 ， 可 用 
多 带 图 灵机 )。 尝 试 利用 非 确定 性 来 避免 选 代 并 在 非 确定 性 意义 下 节省 时 间 。 也 就 是 说 ， 宁 愿 让 
NTM 多 进行 分 支 而 让 每 个 分 支 保持 简短 。 

a) 所 有 重复 (不必 是 连续 地 ) 某 个 长 为 100 的 串 的 0 和 1 串 的 语言 。 形 式 化 地 说 ， 这 个 语言 是 

形 如 woyxz 的 0 和 1 串 的 集合 ， 其 中 bd = 100， 而 w, y, z 是 任意 长 度 的 。 
b) 所 有 对 于 任意 n" 形 如 wu#wz#…#pwn 的 串 的 语言 ， 使 得 每 个 w 是 0 和 1 的 串 ， 并 且 对 于 某 个 
Wy Ade — HE Hl j. 
©) 所 有 形 和 如 (b) 中 串 的 语言 ， 但 对 于 至 少 两 个 j 值 ，w 等 于 二 进 制 的 j。 
! 习 题 8.4.4 考虑 非 确定 型 图 灵机 
M= (40,41, 42 97},{0, 1}, {0, 1, B}, 6, qo, B, {q/}) 
非 形式 化 但 清楚 地 描述 语言 LM)， 如 果 5 包 含 下列 规 则 集合 : (0, 0) = {(go 1, R), (qi, 1, R)}; 
(qi, 1) = {(q2,0, L)}; Kaz, 1) = {(qo, 1, R)}s qi, B) = {(q, B, R)}. 
* 习题 8.4.5 ”考虑 其 带 在 两 个 方向 上 都 是 无 穷 的 非 确定 型 TM。 在 某 个 时 刻 ， 除 包含 符号 $ 的 
一 个 单元 之 外 ， 带 完全 是 空格 。 带 头 当前 是 在 某 个 空格 单元 中 ， 状 态 是 g。 
a) 写 出 使 得 这 个 NTM 进 入 状态 p 并 扫描 $ 的 那些 转移 。 
! b) 假设 这 个 TM 是 确定 型 的 。 如 何 让 这 个 TM 找到 $ 并 进入 状态 p? 
习题 8.4.6。 设计 下 面 的 2 带 TM 来 接受 所 有 具有 相同 数目 0 和 1 的 串 的 语言 。 第 一 条 带 包 含 输 
入 ， 从 左 向 右 扫描 。 第 二 条 带 用 来 保存 到 目前 为 止 看 到 的 输入 部 分 中 0 超过 1 的 个 数 或 1 超过 0 的 
个 数 。 说 明 状态 、 转 移 和 每 个 状态 的 直观 目的 。 
习题 8.4.7 在 本 题 中 ， 将 用 特殊 的 3 带 TM 来 实现 堆栈 。 
1 第 一 条 带 将 只 用 于 保 在 和 读 输入 。 输 入 字母 表 包含 符号 1 (这 个 符号 将 解释 为 “弹出 堆 
ER”) 和 符号 a 和 b (分 别 解释 为 “把 4 压 信 堆栈 ”和 “把 b 压 人 堆栈 ”)。 
2. 第 二 条 带 用 来 保存 堆栈 。 
3. 第 三 条 带 是 输出 带 。 每 次 当 符号 从 堆栈 中 弹出 时 ， 必 须 写 在 输出 带 上 ， 跟 在 前 面 写 下 的 
所 有 符号 后 面 。 
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要 求 图 灵机 从 空 栈 开始 并 实现 从 左 向 右 读 输入 所 规定 的 压 入 和 弹出 操作 序列 。 如 果 输 入 导致 TM 
从 空 栈 弹出 ， 则 TM 必须 在 特殊 的 错误 状态 q. 中 停机 。 如 果 整 个 输入 在 最 后 让 堆栈 为 空 ， 则 通过 
进入 终结 状态 dr 来 接受 输入 。 非 形式 化 但 清楚 地 描述 这 个 TM 的 转移 函数 。 另 外 ， 给 出 使 用 每 个 
状态 的 目的 的 摘要 。 
习题 8.4.8 在 图 8-17 中 看 到 了 单 带 TM 模拟 k 带 TM 的 一 般 模拟 的 例子 。 
*a) 假设 用 这 种 技术 来 模拟 具有 7 个 符号 带 字母 表 的 5 带 TM。 单 带 TM 将 有 多 少 个 带 符 号 ? 
* b) 用 1 条 带 模拟 k 条 带 的 另 一 种 方法 是 用 第 k + 1 道 保存 所 有 k 条 带 的 带头 位 置 ， 以 明显 的 方式 
用 前 道 来 模拟 条 带 。 注 意 ， 在 第 k + 1 道中 必须 要 仔细 区 分 带头 ， 并 允许 两 个 或 多 个 带 
头 在 同一 单元 中 的 可 能 性 。 这 种 方法 是 否 减少 单 带 TM 需要 的 带 符号 数 ? 
©) 用 1 条 带 模拟 k 条 带 的 另 一 种 方法 是 完全 避免 保 存 带头 位 置 。 更 适当 地 ， 只 用 第 k + 1 道 标 
记 带 的 一 个 单元 。 在 所 有 时 刻 里 ， 把 每 条 被 模拟 的 带 放 在 这 条 带 的 道中 ， 使 得 带头 在 标 
记 的 单元 中 。 如 果 k 带 TM 移动 带 i 的 带头 ， 则 执行 模拟 的 单 带 TM 把 第 ; 道 的 整个 非 空格 内 
容 向 相反 的 方向 滑动 一 个 单元 ， 使 得 标记 的 单元 继续 包含 : 带 TM 的 第 个 带头 扫描 的 单元 。 
这 种 方法 是 否 有 助 于 减少 单 带 TM 的 带 符号 数 ? 与 所 讨论 的 其 他 方法 相 比 ， 这 种 方法 是 否 
存在 缺点 ? 

! 习题 8.4.9 。k 头 TM 具有 k 个 带头 读 一 条 带 的 单元 。 这 个 TM 的 移动 依赖 于 状态 和 每 个 带头 扫 
描 的 符号 。 在 一 步 移动 中 ，TM 可 以 改变 状态 ， 在 每 个 带头 扫描 的 单元 中 写 下 新 符号 ， 把 每 个 带 
头 向 右 移动 、 向 左 移动 或 保持 静止 。 多 个 带头 可 能 扫描 同一 个 单元 ， 所 以 假设 带头 从 1 到 k 编 号 ， 
扫描 一 个 单元 的 最 大 号 数 带头 写 下 的 符号 是 实际 写 在 这 个 单元 中 的 符号 。 证 明 ，k 头 图 灵机 与 普 
通 TM 接 受 的 语言 是 一 样 的 。 

1 习题 8.4.10 ”二 维 图 灵机 具有 通常 的 有 穷 控 制 但 带 却 是 在 所 有 方向 上 都 是 无 穷 的 二 维 单元 网 
格 。 和 往常 一 样 ， 输 入 放 在 网 烙 的 一 行 上 ， 带 头 在 输入 的 左 端 ， 控 制 是 在 初始 状态 中 。 同 样 和 
往常 一 样 ， 以 进入 终结 状态 方式 来 接受 。 证 明 : 二 维 图 灵机 与 普通 TM 接受 的 语言 是 一 样 的 。 


8.5 受 限制 的 图 灵机 


已 经 看 到 图 灵机 表面 上 的 推广 不 增加 任何 语言 识别 能 力 。 现 在 ， 将 考虑 TM 外 观 上 的 限制 的 一 
些 例子 ， 这 些 限制 也 给 出 恰好 相同 的 语言 识别 能 力 。 第 一 个 限制 是 小 而 有 用 的 在 稍 后 看 到 的 许 
多 构造 中 ): 把 双向 无 穷 的 TM 带 改换 成 只 有 在 右 方才 是 无 穷 的 带 。 还 禁止 这 种 受 限制 的 TM 显示 
空格 作为 替换 带 符 号 。 这 些 限制 的 价值 在 于 可 以 假设 ID 只 包含 非 空格 符号 ， 并 总 是 从 输 太 的 左 端 
开始 。 

然后 探索 那些 作为 推广 的 下 推 自动 机 的 某 些 种 类 的 多 带 图 灵机 。 首 先 ， 限制 TM 的 带 行为 
类 似 堆栈 。 然 后 ， 进 一 步 限制 带 是 “计数 器 "， 也 就 是 说 ， 带 只 能 表示 二 个 整数 ，TM 只 能 区 分 
0 计数 与 任何 非 零 计数 。 这 种 讨论 的 影响 是 ， 存 在 一 些 非常 简单 类 型 的 自动 机 具有 任何 计算 机 
的 完全 能 力 。 而 且 ， 关 于 图 灵机 的 不 可 判定 问题 (在 第 9 章 看 到 ) 也 适用 于 这 些 简单 机 器 。 


8.5.1 具有 半 无 穷 带 的 图 灵机 
允许 图 灵机 带头 从 初始 位 置 向 左 或 向 右 移动 ， 但 真正 必要 的 只 是 允许 TM 带头 在 初始 带头 位 
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置 及 其 右边 范围 内 移动 。 事 实 上 ， 可 以 假设 带 是 站 无 穷 的 ， 也 就 是 说 ， 在 初始 带头 位 置 的 左边 
没有 任何 单元 。 在 下 一 个 定理 中 ， 将 给 出 构造 说 明 具有 半 无 穷 带 的 TM 能 模拟 具有 双向 无 穷 带 
(类 似 本 书 原来 的 TM 模 型 ) 的 TM。 

这 个 构造 背后 的 技巧 是 在 半 无 穷 带 上 使 用 两 个 道 。 上 道 表示 原来 TM 在 初始 带头 位 置 及 其 右 
边 的 单元 。 下 道 以 相反 顺序 表示 初始 位 置 左边 的 位 置 。 淮 确 的 安排 如 图 8-19 所 示 。 上 道 表 示 单 
元 Xo, Xiv, Xo 是 带头 初始 位 置 ，X, 等 都 是 初始 位 置 右边 的 

















MC. MEX X-; 等 表示 初始 位 置 左边 的 单元 。 注 意 下 道 在 01*! |*2 

最 左 单元 中 的 *， 这 个 符号 的 作用 是 作为 端 标记 和 防止 半 无 穷 | > aal 

TM 的 带头 无 意 中 越过 带 的 左 端 图 8-19 半 无 穷 带 能 模拟 
将 在 图 灵机 上 做 出 另 一 个 限制 永远 不 写 空格 。 这 个 简 i ch 


单 限制 连同 带 只 是 半 无 穷 的 限制 一 起 意味 着 带 在 所 有 时 刻 都 是 非 空格 符号 的 前 级 ， 后 面 跟着 
无 穷 的 空格 。 而 且 ， 非 空格 的 序列 总 是 从 初始 带头 位 置 开始 。 在 定理 9.19 中 和 定理 10.9 中 将 看 到 ， 
假设 ID 具有 这 种 形式 是 多 么 有 用 。 


定理 8.12 具有 下 列 限制 的 TM M, 接 受 TM M, 所 接受 的 每 个 语言 : 
1. MI 的 带头 永远 不 移动 到 初始 位 置 左边 。 
2. Mi 永远 不 写 空格 。 
证 明 条 件 (2) 是 非常 容易 的 。 产 生 不 是 空格 但 作用 像 空格 的 新 的 带 符号 B'。 也 就 是 说 : 
a) 如 果 M2 有 规则 5(q, 入 = (p, B,D)， 则 把 这 条 规则 改 成 5.(q, X) = (p, B', D)o 
b) 然后 ， 对 于 每 个 状态 9g， 令 5(q,B8) 与 6(q,8) 一 样 。 
条 件 (1) 是 需要 额外 努力 的 。 设 
M2=(Q2, F, D, 6, qz, B, F2) 
是 按 上 述 修改 过 的 TM M;,， 所 以 Ms 永远 不 写 空格 。 构 造 
Mi=(Q, E x {B}, Ti, ô, qo, [B, B], Fi ) 


其 中 ， 

Qi: M1 的 状态 是 {qo, q1}U(Q;x {U, 六 )。 也 就 是 说 ，M, 的 状态 是 初始 状态 49 或 另 一 个 状态 9 
以 及 M: 的 状态 加 上 是 U 或 L (ERF) 的 第 二 个 数据 分 量 。 第 二 个 分 量 说 明 M: 究 竟 正在 
扫描 上 道 还 是 下 道 (如 图 8-19 所 示 )。 换 句 话说 ，U 意 味 着 M, 带 头 是 在 初始 位 置 本 身 或 
右边 ，L 意 味 着 带头 是 在 初始 位 置 左边 。 

Tis MI 的 带 符号 是 [符号 的 所 有 有 序 对 ， 即 五 x I。M 的 输入 符号 是 第 一 分 量 为 M2 的 输入 
符号 且 第 二 分 量 为 空格 的 有 序 对 ， 即 形 如 [a, 相 的 有 序 对 ，a 属 于 三 。M, 的 空格 则 在 两 
个 分 量 中 都 有 空格 。 另 外 ， 对 于 世 中 每 个 符号 X， 在 并 中 存在 有 序 对 [X, *]。 这 里 ，* 是 
不 属于 媚 的 新 符号 ，* 的 作用 是 标记 Mi 带 的 左 端 。 

ô: MI 的 转移 如 下 : 

1) 对 于 任意 a 属于 ，6(qo, (a, BY) = (qı, (a, +], R)。Mi 的 第 一 步 移动 把 标记 写 在 最 左 单 
元 的 下 道 。 状 态 成 为 9,， 带 头 向 右 移动 ， 因 为 带头 不 能 向 左 移动 或 保持 不 动 。 
2) 对 于 任意 X 属 于 刀 ，5(9,, [X, BY) = (lq, UI, [X, B], 刀 。 在 状态 中 ，j14 ,建立 1 的 初 








1353, 
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始 条 件 ， 把 带头 返回 初始 位 置 ， 把 状态 改 成 [4> U] ( 即 MM; 的 初始 状态 ) ， 把 注意 力 
集中 在 Mi 的 上 道 。 
3) 如 果 6(q, 习 = (p,7,D)， 则 对 于 每 个 Z 属 于 : 
(a) (fq; U), [X, ZI) = (lp, VILY, 21,D) 并 有 8 
(b) ô(lg, L), [Z, XI) = (Ip; L], [Z Y), D), 其 中 万 是 与 D 相 反 的 方向 ， 也 就 是 说 ,如 果 
D=R 则 DD =L， 如 果 D=L 则 万 = R。 如 果 Mi 不 在 最 左 单 元 ， 则 Mi 在 适当 的 道中 
模拟 M， 如 果 状 态 的 第 二 分 量 是 U， 则 这 个 道 是 上 道 ， 如 果 第 二 分 量 是 L， 则 是 
下 道 。 但 是 注意 ， 当 在 下 道 工作 时 ，M 与 M; 向 相反 方向 移动 。 这 种 选择 是 有 意义 
的 ， 因 为 已 经 沿 着 MI 带 的 下 道 以 相反 方向 折 又 了 M; 带 的 左边 一 半 。 
4) WRG, X) = (p, Y, R), W 
s di([q, L), IX, *]) = ô(lq, U), [X, *) = (Ip, UI, [Y, +], R) 
这 个 规则 适用 于 如 何 处 理 左 端 标记 * 的 一 种 情形 。 如 果 M; 从 初始 位 置 向 右 移 动 ， 则 
无 论 M2 先前 是 否 已 经 到 过 这 个 位 置 的 左边 或 右边 (反映 在 MM 状态 的 第 二 分 量 可 能 是 
ZL 或 U 的 事实 中 )，M1 都 必须 向 右 移 动 并 注意 上 道 。 也 就 是 说 ，MI 下 一 步 将 在 图 8-19 
中 用 XX 所 表示 的 位 置 。 
5) 如 果 5(9, =(p, 了 ,了 ， 则 
Gi([q, L1, [X,*]) = (lg, UI, [X, #1) = (lp, L), LY; #1, R) 
这 个 规则 类 似 于 前 一 条 规则 ， 但 适用 于 M; 从 初始 位 置 向 左 移动 的 情形 。M 必 须 从 端 
标记 向 右 移动 ， 但 现在 注意 的 是 下 道 ， 即 图 8-19 中 X-1 所 表示 的 单元 。 
Fi: 接受 状态 Fl 是 Fix {U, 妖 中 第 一 分 量 为 M: 接 受 状态 的 那些 Mi 状态 。 在 Mi 接受 时 ， 其 注 
意 力 可 以 集中 在 上 道 或 下 道 。 
现在 本 质 上 已 经 完成 了 这 个 定理 的 证 明 。 如 果 读 者 取出 下 道 、 反 转 、 把 上 道 接 在 后 面 ， 则 
通过 对 M, 的 移动 步 数 进行 归纳 ， 就 可 以 观察 到 MM 将 在 自身 带 上 模拟 Ms 的 ID。 另 外 注意 ， 恰 好 当 
Mi 进入 接受 状态 之 一 时 M1 才 接受 。 因 此 ，L(M1) = L(M;)。 g 


8.5.2 多 堆栈 机 器 


现在 考虑 基于 下 推 自动 机 的 推广 的 几 种 计算 模型 。 首 先 ， 考 虑 当 给 PDA 多 个 堆栈 时 会 发 生 
什么 。 从 例 87 已 经 知道 图 灵机 能 接受 任何 只 有 一 个 堆栈 的 PDA 所 不 接受 的 语言 。 事 实 是 ， 如 果 
给 PDA 两 个 堆栈 ， 则 PDA 能 接受 TM 能 接受 的 任何 语言 。 

然后 ， 将 考虑 所 谓 “ 计 数 器 机 器 ”的 机 器 类 。 这 些 机 器 的 能 力 只 限于 保存 有 穷 多 个 整数 
(“计数 器 ")， 并 根据 是 否 有 任何 计数 器 当前 为 0 来 进行 不 同 移动 。 计 数 器 机 器 只 能 从 计数 器 加 1 
或 碱 1， 而 不 能 区 分 两 个 不 同 的 非 零 计数 。 实 际 上 ， 计 数 器 类 似 于 只 能 放 进 两 种 符号 的 堆栈 ， 只 
能 在 堆栈 底 出 现 的 栈 底 标记 ， 以 及 可 从 堆栈 中 弹出 和 压 入 的 另 一 种 符号 。 

我 们 将 不 给 出 对 多 堆栈 机 器 的 形式 化 处 理 ， 但 思想 如 图 8-20 所 示 。k 堆 栈 机 器 是 带 有 k 个 堆栈 
的 确定 型 PPA。 类 似 于 PDA 的 做 法 ，k 堆 栈 机 器 从 输入 源 获得 输入 ， 而 不 是 像 TM 那样 把 输入 放 
在 带 上 或 堆栈 中 。 多 堆栈 机 器 带 有 有 穷 控制 ， 有 穷 控 制 是 有 穷 多 个 状态 中 的 一 个 。 多 堆栈 机 器 
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具有 有 穷 的 堆栈 字母 表 ， 所 有 堆栈 都 使 用 这 个 字母 表 。 多 堆栈 机 器 的 一 步 移动 是 基于 : 
1. 有 穷 控 制 状态 。 
2. 所 读 输入 符号 ， 这 个 符号 是 从 有 穷 的 输 大 字母 表 有 穷 [at 
中 选择 的 。 作 为 另 一 种 选择 ， 多 堆栈 机 器 能 使 用 Reem j 
输入 来 进行 移动 ， 但 为 了 让 机 器 是 确定 型 的 ， 
在 任何 情况 下 都 不 能 同时 存在 e 移 动 选择 和 非 移 
动 选择 。 
3. 每 个 堆栈 中 栈 顶 符号 。 
在 一 步 移动 中 ， 多 堆栈 机 器 能 : 
a) 变 成 新 状态 。 
b) 把 每 个 堆栈 的 栈 顶 符号 替换 成 零 个 或 多 个 堆栈 图 8-20 带 有 三 个 堆栈 的 机 器 
符号 的 串 。 每 个 堆栈 可 能 有 (通常 是 ) 不 同 的 替换 串 。 
因此 ，k 堆 栈 机 器 的 典型 的 转移 规则 似乎 像 是 
89,4, Xi, Ka, =, Xa) = (P, Yis Y Ne) 
这 个 规则 的 解释 是 ， 在 状态 4 中 ， 对 于 i = 1, 2, … , k，% 在 第 个 堆栈 的 顶端 ， 机 器 能 从 输入 中 消 
Hea (输入 符号 或 2)， 到 达 状 态 p， 对 于 每 个 i =1, 2, …, k， 把 第 个 堆栈 的 顶端 的 六 换 成 串 h。 多 
堆栈 机 器 以 进入 终结 状态 方式 来 接受 。 
增加 一 种 能 力 ， 以 简化 这 种 确定 型 机 器 对 输入 的 处 理 : 假设 有 一 个 特殊 符号 $， 称 为 末端 和 
号 ， 这 个 符号 只 出 现在 输入 末尾 并 且 不 属于 输入 。 未 端 符号 的 出 现 ， 允 许 获知 何 时 已 经 读 完了 
所 有 有 效 的 输入 。 在 下 一 个 定理 中 将 看 到 ， 末 端 符号 让 多 堆栈 机 器 容易 模拟 图 灵机 。 注 意 ， 常 
规 图 灵机 不 需要 末端 符号 ， 因 为 第 一 个 空格 就 起 到 标记 输入 未 端的 作用 。 


定理 8.13 ”如果 图 灵机 接受 语言 L， 则 双 堆 栈 机 器 接受 L。 
证 明 ”本 质 思想 是 ， 两 个 堆栈 可 以 模拟 一 条 图 灵机 带 ， 一 个 堆栈 保存 带头 左边 的 内 容 ， 另 
一 个 堆栈 保存 带头 右边 的 内 容 ， 但 都 不 包含 最 左边 和 最 右边 非 空格 以 外 的 无 穷 空格 申 。 更 详细 
地 说 ， 对 于 某 个 ( 单 带 ) TMM, 设 L 是 LM)。 双 堆栈 机 器 5 将 做 下 列 工作 : 
1.5 从 每 个 堆栈 中 的 一 个 栈 底 标记 开始 。 这 个 标记 可 以 是 堆栈 的 初始 符号 ,并 且 不 得 在 堆栈 
中 别处 出 现 。 在 下 面 的 叙述 中 ， 当 堆栈 只 包含 栈 底 标记 时 ， 将 说 “堆栈 是 空 的 ”。 
2. 假 设 w$ 是 5 的 输入 。5 把 w 复 制 到 第 一 个 堆栈 中 ， 当 读 到 输入 的 末端 标记 时 ;就 停止 复制 。 
3.5 从 第 一 个 堆栈 中 依次 弹出 每 个 符号 ， 并 把 这 些 符号 压 人 第 二 个 堆栈 中 。 现在 ， 第 一 个 堆 
栈 是 空 的 ， 第 二 个 堆栈 包含 w，w 的 左 端 在 顶 上 。 
4.5 进 入 (被 模拟 的 ) M 的 初始 状态 。5 让 第 一 个 堆栈 为 空 ， 表 示 M 在 带头 扫描 的 单元 的 左边 
除了 空格 之 外 没有 任何 内 容 的 事实 。3 让 第 二 个 堆栈 包含 w， 表 示 w 出 现在 M 带 头 扫描 的 单 
元 及 其 右边 的 事实 。 
5. 5 模拟 M 的 移动 如 下 。 
(a) 5 知道 M 的 状态 (比方 说 g9)， 因 为 5 在 本 身 的 有 穷 控 制 中 模拟 M 的 状态 。 
(b) 5 知道 M 的 带头 扫描 的 符号 X; 这 个 符号 是 5 第 二 个 堆栈 的 栈 顶 。 例 外 情况 是 -如 果 第 
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二 个 堆栈 只 有 栈 底 标记 ， 则 MM 刚刚 移动 到 一 个 空格 上 ，5 把 M 扫 描 的 符号 解释 成 空格 。 
(©) 因此 ，5 知 道 M 的 下 一 步 移动 。 
(qd) 把 M 的 下 一 个 状态 记录 在 5 的 有 穷 控制 的 分 量 中 ， 取 代 前 一 个 状态 。 
(©) 如 果 M 把 X 换 成 Y 并 向 左 移动 ， 则 5 把 Y 压 入 第 一 个 堆栈 ， 表 示 7 现 在 是 在 MM 带头 左边 的 
357] 事实 。 从 3 的 第 二 个 堆栈 弹出 Y。 但 是 ， 有 两 种 例外 情况 : 
i 如 果 第 二 个 堆栈 中 只 有 栈 底 标记 〈 因 此，X 是 空格 ) ， 则 第 二 个 堆栈 不 改变 ，M 需 要 
向 右 移动 到 另 一 个 空格 上 。 
ii. 如 果 Y 是 空格 ， 且 第 一 个 堆栈 是 空 的 ， 则 这 个 堆栈 保持 为 空 。 因 为 在 M 的 带头 左边 
还 是 只 有 空格 。 
(D 如 果 必 把 X 换 成 Y 并 向 左 移动 ， 则 5 弹出 第 一 个 堆栈 的 栈 顶 (如 Z) ， 然 后 在 第 二 个 堆栈 
中 把 X 换 成 ZY。 这 个 改变 反映 出 过 去 在 带头 左边 的 一 个 位 置 现在 是 带头 所 在 的 事实 。 
例外 情况 是 ， 如 果 Z 是 栈 底 标记 ， 则 M 必 须 在 第 二 个 堆栈 中 压 入 BY， 并 且 不 在 第 一 个 


堆栈 中 弹出 。 
6. 如 果 M 的 新 状态 是 接受 的 ， 则 5 接受 。 否 则 ，5 就 以 同样 的 方式 来 模拟 M 的 另外 一 步 移 
动 。 口 
8.5.3 计数 器 机 器 


可 用 下 列 两 种 方式 之 一 来 考虑 计数 器 机 器 : 
1. 计 数 器 机 器 具有 与 多 堆栈 机 器 (图 8-20) 相同 的 结构 ， 只 是 代替 每 个 堆栈 的 是 计数 器 。 
计数 器 包含 任意 非 负 整数 ， 但 只 能 区 分 零 计 数 器 与 非 零 计数 器 。 也 就 是 说 ， 计 数 器 机 器 
的 移动 依赖 于 状态 、 输 入 符号 以 及 哪些 计数 器 为 零 (如 果 有 计数 器 为 零 的 话 )。 在 一 步 移 
动 中 ， 计 数 器 机 器 可 以 : 
(a) 改变 状态 。 
CO) 独立 地 从 任何 一 个 计数 器 中 加 1 或 减 1。 但 不 允许 计数 器 变 成 负 的 ， 所 以 不 能 从 目前 为 
0 的 计数 器 中 减 1。 
2. 也 可 认为 计数 器 机 器 是 受 限制 的 多 堆栈 机 器 。 这 些 限制 如 下 : 
(a) 只 有 两 种 堆栈 符号 ， 把 两 种 符号 称 为 2。( 栈 底 标记 ) FIX, 
(b) 开始 时 如 是 在 每 个 堆栈 中 。 
(c) 只 能 把 Z 换 成 形 如 XZo 的 串 ， 对 于 某 个 i>0。 
(d) 只 能 把 X 换 成 形 如 X 的 串 ， 对 于 某 个 >0。 也 就 是 说 ， 思 只 能 出 现在 每 个 堆栈 的 栈 底 ， 
358] 所 有 其 他 的 堆栈 符号 (如果 有 的 话 ) 都 是 X。 
对 于 计数 器 机 器 将 采用 定义 (1)， 但 两 个 定义 显然 定义 相同 能 力 的 机 器 。 因 为 堆栈 XiZo 等 于 
计数 i。 在 定义 (2) 中 ， 我 们 能 从 其 他 计数 中 区 分 出 计数 0， 因 为 对 于 计数 0 我 们 在 堆栈 顶端 看 到 Z， 
否则 看 到 X。 但 不 能 区 分 两 个 正 的 计数 ， 因 为 在 堆栈 顶端 都 是 X。 


8.5.4 计数 器 机 器 的 能 力 





关于 计数 器 机 器 接受 的 语言 ， 有 几 个 虽然 明显 但 值得 陈述 的 事实 : 
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“计数 器 机 器 接受 的 每 个 语言 都 是 递归 可 枚 举 的 。 因 为 计数 器 机 器 是 堆栈 机 器 的 特殊 情形 ， 
堆栈 机 器 是 多 带 图 灵机 的 特殊 情形 ， 根 据 定理 8.9， 多 带 图 灵机 只 接受 递归 可 枚 举 语言 。 

“ 单 计数 器 机 器 接受 的 每 个 语言 都 是 CFL。 注 意 从 (2) 的 观点 来 看 ， 计 数 器 是 堆栈 ， 所 以 单 计 

数 器 机 器 是 单 堆栈 机 器 ( 即 PDA) 的 特殊 情形 。 事 实 上 ， 确 定型 PDA 接 受 单 计数 器 机 器 的 

语言 ， 但 证 明 复杂 得 令 人 吃惊 。 证 明 中 的 困难 来 自 多 堆栈 机 器 和 计数 器 机 器 都 在 输入 末端 

具有 末端 标记 $ 的 事实 。 非 确定 型 PDA 能 猜测 到 已 经 看 到 最 后 一 个 输入 符号 并 将 要 看 到 $， 

因此 ， 不 带 末 端 标记 的 非 确定 型 PDA 显 然 能 模拟 带 有 末端 标记 的 DPDA。 但 是 ， 困 难 的 证 

明 (将 不 去 尝试 ) 是 证 明 不 带 末 端 标记 的 DPDA 能 模拟 带 有 末端 标记 的 DPDA。 

关于 计数 器 机 器 令 人 吃惊 的 结果 是 两 个 计数 器 就 是 以 模拟 一 个 图 灵机 ， 因 此 就 是 以 接受 任 

何 递归 可 枚 举 语言 。 现 在 讨论 的 正 是 这 个 结果 ， 首 先 证 明 三 个 计数 器 是 足够 的 ， 然 后 用 两 个 计 
数 器 来 模拟 三 个 计数 器 。 


定理 8.14 3 计数 器 机 器 接受 每 个 递归 可 枚 举 语言 。 

证 明 从 定理 8.13 开 始 ， 该 定理 说 双 堆栈 机 器 接受 每 个 递归 可 枚 举 语言 。 于 是 需要 证 明 如 何 
用 计数 器 模拟 堆栈 。 假 设 堆栈 机 器 使 用 r 一 1 个 带 符号 。 可 认为 这 些 符号 是 从 1 到 一 1 的 数字 ， 并 
认为 堆栈 XX…X 是 r 进 制 整数 。 也 就 是 说 ， 把 这 个 堆栈 (堆栈 顶端 照常 是 在 左 端 ) 表示 成 整数 
Xat Xp + + 二 二 Xi 

用 两 个 计数 器 保存 分 别 表示 两 个 堆栈 的 整数 。 用 第 三 个 计数 器 调节 另外 两 个 计数 器 。 具 体 
地 说 ， 当 把 计数 器 除 以 或 乘 以 r 时 ， 就 需要 第 三 个 计数 器 。 

堆栈 上 的 操作 可 分 成 三 种 : 弹出 栈 顶 符号 ， 改 变 栈 顶 符号 ， 压 人 符号 到 堆栈 。 双 堆栈 机 器 
的 一 步 移动 可 能 涉及 这 些 操作 中 的 几 种 ， 具体 地 说 ， 把 堆栈 的 栈 顶 符号 X 换 成 符号 串 ， 这 个 移动 
就 必须 分 解 成 替换 X， 然 后 压 和 人 额外 符号 到 堆栈 。 在 表示 成 计数 ;的 堆栈 上 执行 这 些 操作 如 下 。 
注意 ， 可 能 使 用 多 堆栈 机 器 的 有 穷 控 制 来 完成 需要 计数 不 超过 r 的 每 种 操作 。 

1. 为 了 从 堆栈 中 弹出 ， 必 须 把 洲 成 ir， 抛 弃 任 何 余数 ， 余 数 是 X,。 开 始 时 ， 第 三 个 计数 器 
是 0， 反 复 把 计数 i 减 r 并 把 第 三 个 计数 器 加 1。 当 起 初 保存 i 的 计数 器 等 于 0 时 停止 。 然 后 ， 
反复 把 原来 的 计数 器 加 1 并 把 第 三 个 计数 器 减 1, 直到 第 三 个 计数 器 再 次 为 0。 在 这 个 时 刻 ， 
过 去 保存 的 计数 器 保存 办 。 

2. 为 了 把 计数 i 所 表示 堆栈 顶 上 的 X 换 成 Y， 就 给 i 增 或 减少 量 的 值 ， 肖 定 不 超过 +。 如果 Y>X 
(作为 数字 ) ， 就 给 动 上 Y 一 X， 如 果 了 <X， 就 给 碱 去 X 一 7。 

3. 为 了 把 X 压 入 到 起 初 保存 i 的 堆栈 上 ， 需 要 把 ; 换 成 ir + X, HERA 为 了 这 样 做 ， 反 复 
把 计数 i 办 h1 并 把 第 三 个 计数 器 (总 是 从 0 开始 ) 加 r。 当 原来 的 计数 器 变 成 0 时 在 第 三 个 计 
数 器 中 有 ir。 像 在 第 (1) 项 中 做 过 的 那样 ， 把 第 三 个 计数 器 复制 到 原来 的 计数 器 并 让 第 三 
个 计数 器 再 次 为 0。 最 后 ， 把 原来 的 计数 器 加 上 X。 

为 了 完成 这 个 构造 ， 必 须 初始 化 计数 器 以 便 在 初始 条 件 下 模拟 堆栈 ， 初 始 条 件 是 ， 只 保存 

双 堆 栈 机 器 的 初始 符号 。 通 过 把 涉及 的 两 个 计数 器 加 上 某 个 小 整数 (初始 符号 对 应 的 从 1 到 7 1 
的 任何 一 个 整数 ) 来 完成 这 个 步骤 。 口 


定理 8.15 双 计数 器 机 器 接受 每 个 递归 可 枚 举 语言 。 
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证 明 “有 了 前 面 这 个 定理 ， 只 需要 证 明 如 何 用 两 个 计数 器 来 模拟 三 个 计数 器 。 思 想 是 把 这 
三 个 计数 器 (比方 说 i, j k) 表示 成 单独 一 个 整数 。 选 择 的 整数 是 m = 2354。 一 个 计数 器 将 保存 
这 个 数字 ， 用 另 一 个 来 帮助 把 m 乘 以 或 除 以 前 三 个 素数 2,3, 5 之 一 。 为 了 模拟 3 计数 器 机 器 ,需要 
执行 下 列 操作 : 

1 把 i,j 和 (或) 分 别 加 1。 要 把 ;加 1， 就 把 m 乘 以 2。 在 定理 8.14 的 证 明 中 已 经 看 到 如 何 利 

用 第 二 个 计数 器 把 计数 乘 以 任意 常数 r。 同 样 地 ， 通 过 把 m 乘 以 3 来 把 ;加 1， 把 m 乘 以 5 来 
把 kt 加 1。 

2. 区 分 i,j 和 k 中 哪个 为 0 (如 果 有 的 话 )。 为 了 辨认 是 否 i = 0， 必 须 确定 m 是 否 被 2 整除 。 把 mm 
复制 到 第 二 个 计数 器 中 ， 并 用 计数 器 机 器 的 状态 来 记 住 是 否 已 经 偶数 次 或 奇数 次 把 m 减 1。 
如 果 已 经 奇数 次 把 m 减 1， 则 i = 0。 然 后 把 第 二 个 计数 器 复制 到 第 一 个 计数 器 来 恢复 m。 
同样 地 ， 通 过 确定 m 是 否 被 3 整除 来 检验 是 否 = 0， 并 通过 确定 m 是 否 被 5 整除 来 检验 是 否 
k=0。 

3, 把 i,j 和 (或) 上 分 别 减 1。 为 了 这 样 做 ， 分 别 把 m 除 以 2, 3 或 5。 定 理 8.14 的 证 明说 明 如 何 

利用 额外 的 一 个 计数 器 来 执行 除 以 任意 常数 的 除法 。3 计 数 器 机 器 不 能 把 计数 减低 到 0 以 
下 (这 是 一 种 错误 )， 所 以 如 果 m 不 能 被 正在 进行 除法 的 常数 所 除 尽 ， 则 进行 模拟 的 2 计数 
器 机 器 就 停机 且 不 接受 。 口 





在 计数 器 合 3 为 2 构造 中 的 常数 选择 
注意 ， 在 定理 8.15 的 证 明 中 2, 3 和 5 是 不 同 的 素数 ， 这 是 多 么 的 重要 。 假 如 选择 了 mm = 
29/4, Wim = 12 就 可 能 表示 i = 0,j = 1,k= 1， 或 者 表示 i=2,j= 1;k=0。 因 此 ， 就 不 能 区 分 
或 是 否 为 0%， 因 此 就 不 能 可 靠 地 模拟 3 计数 器 机 器 。 








8.5.5 习题 


习题 8.5.1 “ 非 形式 化 但 清楚 地 描述 接受 下 列 语言 的 计数 器 机 器 。 在 每 种 情况 下 都 使 用 尽 可 
能 少 的 计数 器 ， 但 不 超过 两 个 计数 器 。 
*a){O"1l"In>m>1}, 
b) {0"1l"| m>n>1}, 

* c) {abe li=j Rizk}. 

Nd) {abc liz j Rizk Rj=k}. 

1 习题 8.5.2 ”本 题目 标 是 证 明 输 大 带 有 未 端 标记 的 单 堆栈 机 器 与 确定 型 PDA 相 比 并 不 具有 更 
强 的 能 力 。LS 是 语言 [与 只 有 一 个 申 $ 的 语言 的 连接 ， 也 就 是 说 ，LS 是 使 得 w 属 于 L 的 所 有 的 申 w$ 
的 集合 。 证 明 : 如 果 LS 是 DPDA 接 受 的 语言 ，$ 是 末端 标记 符号 ，$ 不 在 L 的 任何 串 中 出 现 ， 则 某 
个 DPDA 接 受 L。 提 示 : 这 个 问题 其 实 是 证 明 DPDA 语 言 在 习题 4.2.2 中 定义 的 a 运算 下 封闭 的 问 
题 。 必 须 修改 L$ 的 DPDA P， 把 每 个 堆栈 符号 X 换 成 所 有 可 能 的 有 序 对 (X, 5)，5 是 状态 集合 。 如 
果 P 有 堆栈 XiX…X。， 则 为 构造 的 DPDA 有 堆栈 (Xi, Si) (Xo, S2): (Xas 5,)， 其 中 每 个 5; 是 使 得 P 从 
ID (q,a, XXi s1 Xn) 开始 将 接受 的 状态 q 的 集合 。 
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8.6 图 灵机 与 计算 机 


现在 ， 比 较 图 灵机 与 日 常 使 用 的 普通 类 型 计算 机 。 这 些 模型 似乎 相当 不 同 ， 但 却 能 接受 恰 
好 相同 的 语言 ， 即 递归 可 枚 举 语言 。“ 普 通 计 算 机 ”的 概念 不 是 以 数学 方式 良好 地 定义 的 ， 所 
以 本 节 的 论证 有 必要 是 非 形式 化 的 。 必 须 求助 于 计算 机 能 做 什么 的 直觉 ， 特 别 是 当 涉及 的 数字 
超过 了 这 些 机 器 体系 结构 上 固定 的 通常 限制 (例如 32 位 地 址 空间 ) 时 。 本 节 的 断言 可 分 为 两 个 
部 分 : 

1. 计算 机 能 模拟 图 灵机 。 

2. 图 灵机 能 模拟 计算 机 ， 且 至 多 在 计算 机 花费 步 数 的 某 个 多 项 式 时 间 内 这 样 做 。 


8.6.1 用 计算 机 模拟 图 灵机 


首先 检查 计算 机 如 何 能 模拟 图 灵机 。 给 定 具 体 的 TM M， 必 须 写 出 效果 如 同 M 的 程序 。M 的 
一 个 方面 是 有 穷 控 制 。 只 有 有 穷 多 种 状态 和 有 穷 多 条 转移 规则 ， 所 以 程序 可 把 状态 编码 成 字符 
串 并 使 用 转移 表 ， 查 转移 表 来 确定 每 步 移动 。 同 样 地 ， 可 把 带 符号 编码 成 固定 长 度 的 字符 串 ， 
因为 只 有 有 穷 多 种 带 符号 。 

考虑 程序 如 何 模拟 图 灵机 的 带 时 ， 严 重 的 问题 出 现 了 。 这 条 带 可 无 穷 地 增长 ， 但 计算 机 的 
存储 ( 主 存 、 磁 盘 或 其 他 存储 设备 ) 都 是 有 穷 的 。 固 定 大 小 的 存储 能 模拟 无 穷 的 带 吗 ? 

如 果 没 有 机 会 更 换 存储 设备 ， 事 实 上 就 不 能 ， 计 算 机 于 是 就 是 有 穷 自动 机 ， 计 算 机 接受 的 

惟一 语言 都 是 正则 的 。 不 过 ， 普 通 计算 机 都 有 可 交换 的 存储 设备 ， 例 如 可 能 是 “压缩 ”磁盘 。 
事实 上 ， 典 型 的 硬盘 是 可 拆卸 的 ， 可 以 换 成 同样 的 空 硬盘 。 
在 可 使 用 多 少 磁盘 的 问题 上 没有 明显 的 限制 ， 所 以 假设 计算 机 需要 多 少 磁盘 就 有 多 少 
磁盘 可 用 。 因 此 可 安排 磁盘 放 在 两 个 堆栈 中 ， 如 图 8-21 所 示 。 一 个 堆栈 保存 位 于 带头 左边 远 处 
的 图 灵机 带 单元 中 的 数据 ， 另 外 一 个 堆栈 保存 带头 右边 远 处 的 数据 。 在 堆栈 中 位 置 越 深 ， 数 据 
就 离 带头 越 远 。 
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如 果 TM 的 带头 向 左 移 动 得 很 远 ， 结 果 到 达 计 算 机 中 目前 安装 的 磁盘 不 能 表示 的 单元 ， 则 
TM 显 示 消 息 “向 左 交换 "。 操 作 人 员 卸 下 当前 安装 的 磁盘 ， 放 到 右边 堆栈 的 项 上 。 把 左边 堆栈 
顶 上 的 磁盘 安装 在 计算 机 上 ， 恢 复 计算 。 

类 似 地 ， 如 果 TM 的 带头 到 达 右 边 很 远 的 单元 ， 使 得 所 安装 的 磁盘 不 能 表示 这 些 单元 ， 则 显 
示 “ 向 右 交换 ”信息 。 操 作 人 员 把 目前 安装 的 磁盘 移动 到 左边 堆栈 的 顶端 ， 把 右边 堆栈 顶端 的 
磁盘 安装 到 计算 机 中 。 如 果 任 意 一 边 的 堆栈 空 了 ， 则 TM 进入 了 带 上 的 全 空格 区 域 。 在 这 种 情况 
下 ， 操 作 人 员 必 须 到 商店 去 买 新 的 磁盘 来 安装 上 。 





非常 大 的 带 字 母 表 的 问题 


如 果 带 符号 的 个 数 大 到 连 一 个 带 符号 的 编码 都 不 能 装 在 一 个 磁盘 中 ， 则 8.6.1 节 的 讨论 
是 有 问题 的 。 的 确 可 能 有 非常 多 的 带 符号 ， 因 为 30G 的 磁盘 就 能 表示 224ooooom 个 符号 中 的 
任何 一 个 。 同 样 地 ， 状 态 的 个 数 可 能 大 到 用 整个 磁盘 也 不 能 表示 一 个 状态 。 

这 个 问题 的 一 种 解法 是 从 限制 TM 使 用 的 带 符号 个 数 开始 的 。 我 们 总 是 能 用 二 进 制 来 纺 
码 任意 的 带 字母 表 。 因 此 ， 任 何 TM M 都 能 被 另 一 个 TM M' 所 模拟 ，M' 只 使 用 带 符号 0, 1, B, 
但 M' 需 要 许多 状态 ， 因 为 为 了 模拟 M 的 一 步 移动 ，TM M' 必 须 扫 描 带 ， 并 在 有 穷 控制 中 记 
住 说 明 M 正 在 扫描 什么 符号 的 所 有 位 。 采 用 这 种 方式 ， 得 到 的 是 非常 大 的 状态 集合 ， 当 确 
定 M' 的 状态 是 什么 时 ,以 及 确定 M' 的 下 一 步 移动 应 当 是 什么 时 ， 模 拟 M' 的 PC 可 能 不 得 不 安 
装 务 下 几 个 磁盘 。 没 有 人 曾 考虑 过 执行 这 种 性 质 的 任务 的 计算 机 ， 所 以 典型 的 操作 系统 
不 支持 这 种 类 型 的 程序 。 但 是 ， 假 如 希望 这 样 做 ， 就 可 以 给 没有 操作 系统 的 计算 机 编程 ， 
让 计算 机 具有 这 种 能 力 。 

幸运 的 是 ， 可 以 通过 技巧 来 解决 如 何 模拟 巨大 状态 数 或 带 符号 数 的 TM 的 问题 。 在 9.2.3 
节 中 将 看 到 可 设计 实际 上 是 “存储 程序 ”的 TM。 这 个 所 谓 “ 通 用 的 ”TM 读 取 带 上 二 进 制 
编码 的 任意 TM 转移 函数 并 模拟 那个 TM。 通 用 TM 具有 非常 合理 的 状态 数 和 带 符号 数 。 通 
过 模拟 通用 TM， 就 能 给 普通 计算 机 编程 来 接受 所 希望 的 任何 递归 可 枚 举 语言 ， 而 避免 求 
助 于 模拟 强调 了 磁盘 上 存储 限度 的 状态 数 。 
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8.6.2 用 图 灵机 模拟 计算 机 


还 需要 考虑 反 向 比较 : 是 否 存在 着 普通 计算 机 能 做 而 图 灵机 不 能 做 的 事情 。 重 要 的 从 属 问 
题 是 : 计算 机 做 某 些 事情 能 否 比 图 灵机 快 很 多 。 本 节 将 论证 TM 能 模拟 计算 机 ， 在 8.6.3 节 中 论证 
能 足够 快 地 进行 模拟 ， 即 在 给 定 问题 上 计算 机 与 TM 的 运行 时 间 “ 只 ”相差 多 项 式 。 再 次 提醒 读 
者 ， 存 在 着 重要 的 理由 认为 ， 相 互 介 于 多 项 式 之 间 的 所 有 运行 时 间 都 是 类 似 的 ， 但 在 运行 时 间 
上 的 指数 差别 则 是 “ 太 大 了 ”。 在 第 10 章 中 开始 研究 多 项 式 对 指数 运行 时 间 的 理论 。 

为 开始 讨论 TM 如 何 模拟 计算 机 ， 先 给 出 真实 而 非 形式 化 的 关于 典型 计算 机 如 何 操作 的 模型 。 

a) 首先 ， 将 假设 字 的 不 定 长 序列 组 成 计算 机 的 存储 ， 每 个 字 具 有 一 个 地 址 。 在 真实 计算 机 

E, 字 可 能 是 32 位 长 或 64 位 长 , 但 本 书 将 不 限制 给 定 字 的 长 度 。 假 设 地 址 是 整数 0, 1, 2 等 。 
在 真实 计算 机 中 ， 可 能 用 连续 整数 来 编码 单个 字 节 ， 所 以 字 的 地 址 可 能 是 4 或 8 的 倍数 ， 
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但 这 种 差别 不 重要 。 另 外 ， 在 真实 计算 机 中 ,“ 存 储 器 ”中 的 字数 可 能 是 有 限制 的 ， 但 因 
为 希望 说 明 任意 个 数 的 磁盘 或 其 他 存储 设备 的 内 容 ， 所 以 将 假设 字数 没有 限制 。 

b) 假设 计算 机 程序 保存 在 存储 器 的 某 些 字 中 。 像 典型 计算 机 的 机 器 或 汇编 语言 那样 ， 这 些 
字 每 个 表示 一 条 简单 指令 。 例 如 这 些 指令 ;把 数据 从 一 个 字 移动 到 另 一 个 字 ， 或 者 把 一 
个 字 加 到 另 一 个 字 上 。 假 设 人 允许“ 间接 寻 址 "， 所 以 一 条 指令 可 能 引用 另 一 个 字 ， 并 且 用 
另外 这 个 字 的 内 容 作为 被 操作 的 字 的 地 址 。 在 所 有 现代 计算 机 中 都 能 找到 的 这 种 能 力 对 
于 下 列 操作 是 必要 的 : 执行 数组 访问 ， 追 踪 表 中 链接 ， 或 在 一 般 情 况 下 执行 指针 操作 。 

9) 假设 每 条 指令 涉及 有 限 (有 穷 ) 多 个 字 ， 且 每 条 指令 至 多 改变 一 个 字 的 值 。 

d) 典型 计算 机 具有 寄存器 ， 即 可 以 特别 快 地 访问 的 存储 字 。 通 常 ， 限 制 诸如 加 法 这 样 的 操 
作 在 寄存 器 中 进行 。 本 书 将 不 做 任何 这 样 的 限制 ， 而 是 允许 在 任何 字 上 执行 任何 操作 。 
将 不 考虑 在 不 同 字 上 操作 的 相对 速度 ， 如 果 只 比较 计算 机 与 图 灵机 的 语言 识别 能 力 ， 这 
样 的 考虑 也 是 不 必要 的 。 即 使 对 运行 时 间 感 兴趣 到 多 项 式 以 内 ， 访 问 不 同 字 的 相对 速度 
也 是 不 重要 的 ， 因 为 这 些 差别 “只 ”是 常数 因子 。 

图 8-22 显 示 如 何 设计 图 灵机 来 模拟 计算 机 。 这 个 TM 使 用 多 条 带 ， 但 使 用 8.4.1 节 的 构造 就 能 
转化 成 单 带 TM。 第 一 条 带 表示 计算 机 的 整个 存储 。 使 用 这 样 的 编码 ， 即 存储 字 地 址 按照 数值 顺 
序 与 这 些 存储 字 内 容 交 赫 出 现 。 地 址 和 内 容 都 用 二 进 制 书写 。 标 记 符号 * 币 H# 用 来 帮助 找到 地 址 
和 内 容 结尾 ， 以 及 区 分 二 进 制 串 是 地 址 还 是 内 容 。 另 一 个 标记 $ 表 示 地 址 和 内 容 序列 的 开头 。 

第 二 条 带 是 “指令 计数 器 "。 这 条 带 保存 一 个 二 进 制 整数 ， 表 示 带 1 上 的 一 个 存储 单元 。 将 
把 这 个 单元 中 保存 的 值 解释 成 将 要 执行 的 下 一 条 计算 机 指令 。 365 






























存储 器 $0O*wo #1* Ww | #10*w .\#11* Ww ,\#100* w, °° 
指令 计数 器 10011 

存储 地 址 1101110 

计算 机 输入 文件 
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图 8-22 模拟 典型 计算 机 的 图 灵机 
第 三 条 带 保 存 “ 存 储 地 址 ”或 这 个 地 址 的 内 容 ( 当 在 带 1 上 确定 地 址 位 置 之 后 )。 为 了 找 行 
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指令 ，TM 必 须 找 到 一 个 或 多 个 保存 着 计算 中 所 涉及 数据 的 存储 地 址 的 内 容 。 首 先 ， 把 所 需 地 址 
复制 到 带 3 上 并 与 带 1 上 地 址 比较 ， 直 到 发 现 匹 配 为 止 。 把 这 个 地 址 的 内 容 复制 到 第 三 条 带 上 ， 
并 移动 到 所 需要 的 任何 地 方 ， 典 型 情况 是 ， 移 动 到 表示 计算 机 寄存 器 的 一 个 低 编号 地 址 。 
TM 将 按 如 下 方式 模拟 计算 机 的 兹 令 周 期 : 
搜索 第 一 条 带 ， 寻 找 与 带 2 上 指令 号 匹配 的 地 址 。 从 第 一 条 带 上 $ 处 开始 ， 向 右 移动 ， 比 
较 每 个 地 址 与 带 2 的 内 容 。 比 较 两 条 带 上 的 地 址 是 容易 的 ， 因 为 只 需 把 带头 一 前 一 后 地 向 
右 移动 ， 并 验证 扫描 的 符号 总 是 相同 。 
2. 找到 指令 地 址 时 检查 地 址 的 值 。 假 设 当 字 是 指令 时 ， 前 几 个 位 表示 要 做 的 动作 (比如 复 
制 、 加 、 分 支 等 ) ， 剩 下 的 位 编码 表示 动作 中 涉及 的 一 个 或 多 个 地 址 。 
3. 如 果 指 令 要 求 某 个 地 址 的 值 ; 则 这 个 地 址 将 是 指令 的 一 部 分 。 把 这 个 地 址 复制 到 第 三 条 
带 上 ， 标 记 指 令 的 位 置 ， 使 用 第 一 条 带 的 第 二 道 _( 在 图 8-22 中 没有 显示 出 来 )， 所 以 必要 
时 可 以 回 到 这 条 指令 。 现 在 ,在 第 一 条 带 上 搜索 存储 地 址 ， 把 这 个 地 址 的 值 复制 到 带 3 上 ， 
即 保存 着 存储 地 址 的 带 上 。 
4 执行 指令 或 执行 涉及 这 个 值 的 指令 的 一 部 分 。 不 可 能 讨论 所 有 可 能 的 机 器 指令 。 不 过 ， 
对 于 这 个 新 的 值 可 能 执行 的 操作 的 例子 是 : 
O 把 这 个 值 复制 到 某 个 其 他 地 址 。 从 指令 得 到 第 二 个 地 址 ， 如 前 所 述 ， 把 这 个 地 址 写 在 
带 3 上 并 在 带 1 上 搜索 这 个 地 址 ， 就 能 找到 这 个 地 址 。 找 到 第 二 个 地 址 时 ， 就 把 这 个 值 
复制 到 为 这 个 地 址 保留 的 空间 里 。 如 果 需 要 更 多 的 空间 来 保存 这 个 新 的 值 ， 或 者 如 果 
新 的 值 比 老 的 值 占用 更 少 的 空间 ， 则 通过 平移 来 改变 可 用 的 空间 。 也 就 是 说 ; 
i. 把 新 的 值 所 占 之 处 右边 的 整个 非 空白 带 复制 到 草稿 带 上 。 
ii. 把 新 的 值 写 下 来 ， 使 用 这 个 值 的 正确 的 空间 数量 。 
诈 , 把 草稿 带 重新 复制 到 带 1 上 ， 紧 接着 新 值 的 右边 。 
特殊 情形 是 ， 这 个 地 址 可 能 还 没有 出 现在 第 一 条 带 上 ， 因 为 在 此 之 前 计算 机 还 没有 用 
到 过 这 个 值 。 在 这 种 情况 下 ， 在 第 一 条 带 上 找到 这 个 值 所 属 的 地 方 ， 平 移 腾 出 适当 的 
地 方 ， 把 地 址 和 新 的 值 都 保存 在 这 个 地 方 。 
(b) 把 刚刚 找到 的 值 添加 到 某 个 其 他 地 址 的 值 上 。 回 到 指令 来 确定 其 他 地 址 的 位 置 ， 在 带 
1 上 找到 这 个 地 址 。 对 这 个 地 址 的 值 与 带 3 上 保存 的 值 执行 二 进 制 加 法 。 从 右 端 扫描 这 
两 个 值 ，TM 就 能 毫 无 困难 地 执行 逐 位 进位 加 法 。 如 果 结 果 需 要 更 多 空间 ， 则 使 用 平 
移 技术 在 带 1 上 分 配 空间 。 
(9) 指令 是 “ 跳 转 "， 也 就 是 说 ， 是 从 地 址 中 取出 下 一 条 指令 的 指示 ， 这 个 地 址 是 现在 保 
存在 带 3 上 的 值 。 简 单 地 把 带 3 复制 到 带 2， 并 且 再 次 开始 指令 周期 。 
5. 在 执行 指令 并 确定 指令 不 是 跳 转 之 后 ， 给 带 2 上 的 指令 计数 器 加 1， 再 次 开始 指令 循环 。 
TM 如 何 模拟 典型 计算 机 ， 还 有 许多 其 他 细节 。 在 图 8-22 中 显示 了 第 四 条 带 ， 这 条 带 保存 被 
模拟 的 计算 机 输入 ， 因 为 计算 机 必须 从 文件 读 输入 计算 机 正在 测试 其 语言 成 员 性 的 字 )。TM 
能 改 为 从 这 条 带 来 读 。 
图 中 还 显示 了 一 条 草稿 带 。 模 拟 有 些 计算 机 指令 可 能 有 效 地 使 用 一 条 或 多 条 草稿 带 来 计算 ， 
诸如 乘法 的 算术 运算 。 
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最 后 ， 假 设计 算 机 产生 说 明 是 否 接受 输入 的 输出 。 为 把 这 个 动作 翻译 成 TM 能 执行 的 条 件 ， 
我 们 将 假设 计算 机 有 “接受 ”指令 (可 能 对 应 着 计算 机 调用 的 往 输出 文件 上 和 写 yes 的 函数 )。 当 
TM 模拟 这 条 计算 机 指令 的 执行 时 ，TM 进 入 自身 的 接受 状态 并 停机 。 

上 面 的 讨论 远 远 不 是 完整 的 形式 化 的 TM 能 模拟 计算 机 的 证 明 ， 但 它 应 当 提供 了 足够 的 细节 
来 说 服 读 者 TM 是 计算 机 能 力 的 有 效 表示 。 因 此 ， 未 来 将 只 使 用 图 灵机 作为 任意 种 类 的 计算 装置 
计算 能 力 的 形式 化 表示 。 


8.6.3 比较 计算 机 与 图 灵机 的 运行 时 间 


现在 必须 讨论 模拟 计算 机 的 图 灵机 的 运行 时 间 问 题 。 前 面 已 经 指出 : 

* 运 行 时 间 问 题 是 重要 的 ， 因 为 不 仅 将 用 TM 来 检查 到 底 什 么 是 能 计算 的 这 样 的 问题 ， 而 且 检 查 

什么 是 能 以 足够 的 效率 来 计算 的 、 使 得 在 实践 中 可 使 用 问题 的 基于 计算 机 的 解法 这 样 的 问题 。 

“在 易 解 问题 (能 行 之 有 效 地 解决 的 问题 ) 与 难 解 问题 (虽然 能 解决 但 解决 得 不 够 快 而 使 得 

解法 不 可 用 的 问题 ) 之 间 的 分 界线 一 般 认为 是 处 于 在 多 项 式 时 间 内 能 计算 的 问题 与 需要 超 

过 任何 多 项 式 时 间 才能 计算 的 问题 之 间 。 

* 因此， 需要 确保 如 果 在 典型 计算 机 上 在 多 项 式 时 间 内 问题 能 解决 ， 则 图 灵机 在 多 项 式 时 间 

内 问题 能 解决 ， 反 之 亦 然 。 因 为 这 个 多 项 式 等 价 性 ， 所 以 关于 图 灵机 以 适当 效率 能 做 什么 

或 不 能 做 什么 的 结论 同样 很 好 地 适用 于 计算 机 。 

回忆 一 下 ,在 8.43 节 中 曾经 确定 了 单 带 TM 与 多 带 TM 之 间 运 行 时 间 的 差别 是 多 项 式 的 (具体 
地 说 是 平方 )。 因 此 ， 证 明 凡是 计算 机 能 做 的 事情 ， 在 8.6.2 节 中 描述 的 多 带 TM 在 计算 机 所 花费 时 
间 的 多 项 式 时 间 内 也 能 做 ， 这 就 足够 了 。 进 一 步 可 以 知道 同样 的 结论 对 于 单 带 TM 也 是 成 立 的 。 

在 给 出 上 面 描述 的 图 灵机 能 在 O(n) 步 之 内 模拟 计算 机 n 步 这 个 证 明之 前 ， 还 需要 面临 乘法 
作为 计算 机 指令 这 样 的 问题 。 问 题 是 没有 给 出 一 个 计算 机 字 所 能 保存 位 数 的 限制 。 例 如 ， 假 设 
计算 机 开始 时 有 字 保 存 整 数 2， 并 打算 在 连续 " 步 之 中 让 该 字 自 乘 ， 则 该 字 就 应 当 保存 数值 2”。 
这 个 数值 需 用 2" + 1 位 来 表示 ， 所 以 图 灵机 模拟 这 n 条 指令 所 花费 时 间 就 应 当 至 少 是 n 的 指数 。 

一 种 方法 是 坚持 让 字 保 持 固 定 的 最 大 长 度 ， 如 64 位 。 于 是 ， 产 生 太 长 的 字 的 乘法 (或 其 他 
运算 ) 可 能 导致 计算 机 停机 ， 图 灵机 就 没有 必要 继续 模拟 下 去 。 将 采取 更 自由 的 姿态 : 计算 机 
可 使 用 增 至 任意 长 度 的 字 ， 但 一 条 计算 机 指令 只 能 产生 比 参数 长 度 多 一 位 的 字 。 


例 8.16 ”在 上 述 限制 下 ， 加 法 是 允许 的 ， 因 为 结果 最 多 只 能 比 加 数 长 度 多 一 位 。 乘 法 是 不 
允许 的 ， 因 为 两 个 m 位 的 字 可 能 有 长 度 为 2m 的 乘积 。 但 是 ， 可 用 一 系列 m 位 加 法 ， 穿 播 着 把 乘 数 
左 移 一 位 (这 是 只 给 字 长 增加 1 的 另 一 种 运算 ) 来 模拟 mm 位 整数 相 乘 。 因 此 ， 仍 然 能 把 任意 长 度 
整数 相 乘 ， 但 计算 机 所 花费 时 间 是 与 运算 数 长 度 平方 成 比例 的 。 口 


假设 每 条 执行 的 计算 机 指令 最 大 增加 一 位 长 度 ， 就 能 证 明 两 个 运行 时 间 之 间 的 多 项 式 关 系 。 
证 明 的 思路 是 : 注意 在 执行 了 n 个 指令 之 后 ， 在 TM 存储 带 上 提 及 字 的 个 数 是 O(n)， 且 每 个 计算 
机 字 需 要 O(nm) 个 图 灵机 单元 来 表示 。 因 此 ， 带 是 O(n”) 个 单元 那么 长 ，TM 能 在 O(n 时 间 内 确定 
一 条 计算 机 指令 所 需 有 穷 多 个 字 的 位 置 。 

但 是 ， 在 指令 上 还 必须 施加 另 一 个 要 求 。 即 使 指令 不 产生 长 字 作为 结果 ， 指 令 也 可 能 花费 
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长 时 间 来 计算 结果 。 因 此 做 出 另外 一 个 假设 : 多 带 图 灵机 能 在 O(k) 步 之 内 完成 应 用 到 长 度 不 超 
过 Kk 的 字 上 的 指令 本 身 。 确 实 ， 在 多 带 TM 的 O( 如 步 之 内 能 完成 诸如 加 法 、 移 位 、 值 的 比较 等 典 
型 的 计算 机 操作 ， 所 以 现在 是 完全 自由 地 允许 计算 机 在 一 条 指令 之 内 做 什么 。 


定理 8.17 如 果 计算 机 : 

1. 只 有 让 最 大 字 长 度 至 多 增加 1 的 指令 ， 并且 

2. 只 有 多 带 TM 在 长 度 为 k 的 字 上 能 在 不 超过 OUe2) 步 之 内 完成 的 指令 ， 
则 在 8.6.2 节 中 描述 的 图 灵机 能 在 自身 O(e) 步 之 内 模拟 计算 机 mn 步 。 

证 明 首先 注意 图 8-22 中 TM 第 一 条 (存储) 带 开始 时 只 有 计算 机 程序 。 这 个 程序 可 能 很 长 ， 
但 这 个 程序 是 固定 的 并 且 具 有 与 计算 机 执行 的 指令 步 数 n 无 关 的 常数 长 度 。 因 此 ， 存 在 某 个 常数 
c，c 是 计算 机 的 字 以 及 程序 中 出 现 的 地 址 的 最 大 值 。 还 存在 常数 4d，d 是 程序 占据 的 字数 。 

因此 ， 在 执行 " 步 之 后 ， 计 算 机 不 能 产生 长 度 超过 c + n 的 在 何 字 ， 因 此 也 不 能 产生 或 使 用 长 
度 超过 c + 7 的 任何 地 址 。 每 条 指令 至 多 产生 一 个 新 地 址 ， 这 个 地 址 对 应 一 个 值 ， 所 以 在 执行 "个 
指令 之 后 ,地 址 总 数 至 多 是 d+n。 每 个 地 址 - 字 的 组 合 至 多 需要 2(c +n) +2 位 (包括 地 址 、 内 容 、 
分 隔 这 两 者 的 两 个 标记 符号 )， 所 以 ， 在 模拟 a 个 指令 之 后 ，TM 占 据 的 带 单元 总 数 至 多 是 2(d +n) 
(c+n+1)。 由 于 c 和 qd 是 常数 ， 所 以 这 个 单元 数 是 O(n?)。 

现在 知道 能 在 O(n”) 时 间 之 内 完成 一 条 计算 机 指令 中 所 涉及 的 固定 次 数 的 地 址 查找 。 字 都 是 
O(n) 长 度 的 ， 所 以 第 二 个 假设 说 明 TM 在 O(n 时 间 之 内 能 完成 这 些 指 令 本 身 。 剩 余 的 惟一 重要 
的 指令 开销 是 TM 为 了 容纳 新 的 或 增长 的 字 而 在 带 上 腾 出 更 多 空间 所 花费 的 时 间 。- 但 是 ， 平 移 涉 
及 从 带 1 复制 至 多 O(n7) 数 据 到 草稿 带 并 再 次 返回 。 因 此 ， 对 每 条 计算 机 指令 来 说 ， 平移 也 只 需 


要 O(n 时 间 。 
结论 是 TM 在 自身 0(m?) 步 之 内 模拟 计算 机 的 一 步 。 因 此 ， 在 定理 的 叙述 中 断言 图 灵机 的 
O(m) 步 能 模拟 计算 机 n 步 。 口 


最 后 的 事实 是 ， 现 在 看 到 立方 步 数 就 足以 让 多 带 TM 去 模拟 计算 机 。 从 8.4.3 节 还 知道 单 带 
TM 通 过 至 多 平方 步 数 就 能 模拟 多 带 TM。 因 此 : 


定理 8.18 单 带 图 灵机 使 用 至 多 O(n ) 步 能 模拟 定理 8.17 中 描述 的 类 型 的 计算 机 n 步 。 口 
8.7 小 结 


“图 灵机 : TM 是 抽象 计算 装置 ， 同 时 具有 真实 计算 机 和 关于 什么 能 被 计算 的 其 他 数学 定义 
的 能 力 。TM 由 有 穷 状态 控制 和 划分 成 单元 的 无 穷 带 组 成 。 每 个 单元 保存 有 穷 多 种 带 符号 
之 一 ， 其 中 一 个 单元 是 带头 的 当前 位 置 。 TM 根据 当前 状态 和 带头 扫描 的 单元 中 的 带 符号 
来 进行 移动 。 在 一 步 移动 中 ，TM 改 变 状态 ， 用 某 个 带 符号 改写 扫描 的 单元 ,或 者 把 带头 
向 左 或 向 右 移动 一 个 单元 。 

“图 灵机 接受 : TM 启动 时 在 带 上 有 输入 ， 即 有 穷 长 度 的 带 符号 串 ， 带 的 其 余部 分 的 每 个 单 
元 都 包含 空格 符号 。 空 格 是 带 符号 之 一 ， 从 带 符号 的 子 集 合 (不 包括 空格 ， 即 所 请 输入 符 
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号 ) 中 选择 输入 。 如 果 TM 最 终 进 入 接受 状态 ， 则 接受 输入 。 

“递归 可 枚 举 语言 ， TM 接受 的 语言 称 为 递归 可 枚 举 (RE) 语言 。 因 此 ，RE 语 言 是 任意 种 类 
的 计算 装置 能 够 识别 或 接受 的 语言 。 

eTM HRE: 我们 用 包括 从 最 左边 到 最 右边 非 空 格 带 单元 的 有 穷 长 度 的 串 描述 TM 的 当 
前 格局 。 把 状态 放 在 带 符号 序列 中 恰好 在 扫描 单元 左边 ， 就 表示 出 状态 和 带头 位 置 。 

"在 有 穷 榨 制 中 存储 : 有 时 候 ， 如 果 想 像 状 态 具 有 两 个 或 两 个 以 上 分 量 ， 在 有 穷 控 制 中 存储 
就 有 助 于 设计 具体 语言 的 TM。 一 个 分 量 是 控制 分 量 ， 起 状态 通常 所 起 的 作用 。 另 外 一 个 
分 量 保存 TM 需要 记忆 的 数据 。 

“多 道 : 如 果 认为 带 符号 是 具有 固定 个 数 分 量 的 向 量 ， 则 多 道 常常 是 有 帮助 的 。 可 把 每 个 分 
量 可 视 化 成 带 的 独立 轨道 。 

“多 带 图 灵机 : 具有 某 个 固定 数目 但 多 于 一 条 的 带 的 扩展 TM 模 型 。 这 种 TM 的 一 步 移动 是 基 
于 状态 和 带头 在 每 条 带 上 扫描 的 符号 的 向 量 。 在 一 步 移动 中 ， 多 带 TM 改 变 状态 ， 用 每 个 
带头 改写 扫描 的 单元 中 的 符号 ， 把 任何 或 全 部 带头 在 任意 方向 上 移动 一 个 单元 。 多 带 TM 
比 常规 单 带 TM 能 更 快 地 识别 某 些 语言 ， 但 多 带 TM 不 能 识别 任何 非 RE 语言 。 

“ 非 确定 型 图 灵机 : NTM 对 于 每 种 状态 和 扫描 的 符号 都 具有 有 穷 多 种 下 一 步 移动 (状态 、 
新 符号 和 带头 移动 ) 的 选择 。 如 果 任 何 选择 序列 导致 有 接受 状态 的 ID， 则 NTM 接 受 输入 。 
NTM 似 乎 比 确定 型 TM 更 强大 ， 但 NTM 不 能 识别 不 是 RE 的 任何 语言 。 

FAR PDR AL: 可 限制 TM 的 带 ， 使 其 只 在 右边 是 无 穷 的 ， 而 在 带头 初始 位 置 左 边 没 有 
任何 单元 。 这 样 的 TM 能 接受 任何 RE 语言 。 

“多 堆栈 机 器 :可 限制 多 带 TM 的 带 ， 使 其 行为 像 堆 栈 。 输 入 在 独立 的 带 上 从 左 向 右 只 读 一 
次 ,模仿 有 穷 自动 机 或 PDA 的 输入 方式 。 单 堆栈 机 器 其 实 是 DPDA， 但 有 两 个 堆栈 的 机 器 
能 接受 任何 RE 语言 。 

“计数 器 机 器 :可 进一步 限制 多 堆栈 机 器 的 堆栈 ,除了 底 端 标记 之 外 只 有 一 种 符号 。 因 此 ， 
每 个 堆栈 的 作用 像 一 个 计数 器 ， 允 许 保存 一 个 非 负 整数 ， 并 允许 检验 所 保存 整数 是 否 为 0， 
但 没有 其 他 功能 。 具 有 两 个 计数 器 的 机 器 足以 接受 任何 RE 语言 。 

“用 真实 计算 机 模拟 图 灵机 : 如 果 承 认 存 在 可 拆卸 存储 设备 (比如 磁盘 ) 的 供应 是 潜在 无 穷 
的 ， 以 模拟 TM 带 的 非 空格 部 分 ， 则 在 原则 上 用 真实 计算 机 来 模拟 TM 就 是 可 能 的 。 因 为 制 
造 磁盘 的 物理 资源 并 不 是 无 穷 的 ， 所 以 这 个 论证 是 有 问题 的 。 但 是 ， 在 宇宙 中 存在 多 少 存 
储 ， 这 个 限度 是 未 知 的 并 无 疑 是 巨大 的 ， 所 以 像 在 TM 带 中 那样 ， 无 穷 资源 的 假设 是 在 实 
践 中 现实 的 ， 并 且 是 公认 的 。 

“用 图 灵机 模拟 计算 机 : TM 可 以 使 用 一 条 带 保存 寄存 器 、 主 存 、 磁 盘 及 其 他 存储 设备 的 所 
有 位 置 和 内 容 ， 来 模拟 真实 计算 机 的 存储 和 控制 。 因 此 可 以 相信 ，TM 做 不 到 的 某 些 事情 ， 
真实 计算 机 也 做 不 到 。 


8.8 参考 文献 
图 灵机 来 自 [8]。 大 约 在 同时 ， 曾 经 有 过 几 种 不 太 类 似 机 器 的 提议 来 刻画 什么 是 能 计算 的 ， 





Download at http://www.pinSi.com/ 


254 REE 





包括 以 下 著作 : Church 的 [0]，Kleene 的 [31，Post 的 [7]。 在 所 有 这 些 著作 之 前 ，Gidel 的 著作 [3] 实 
际 上 证 明了 计算 机 无 法 回答 所 有 数学 问题 。 

研究 多 带 图 灵机 ， 特 别 是 其 在 运行 时 间 上 如 何 与 单 带 模型 比较 的 问题 ， 开 始 于 Hartmanis 和 
Steams 的 [种 。 对 多 堆栈 机 器 和 计数 器 机 器 的 检查 来 自 [6]， 但 本 书 给 出 的 构造 来 自 [2]。 

在 8:1 节 中 使 用 “hello, world” 作 为 图 灵机 接受 或 停机 的 表示 ， 这 个 方法 出 现在 S - 鲁 笛 奇 
S.Rudich 未 发 表 的 笔记 中 。 
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265. See also ibid. 2:43, pp. 544-546. 
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第 9 章 不 可 判定 性 


本 章 首先 在 图 灵机 的 背景 下 重复 8.1 节 的 论证 ， 对 于 计算 机 不 能 解答 的 一 些 问 题 的 存在 性 来 
说 ;这 个 论证 是 一 个 似乎 有 理 的 论证 。 问 题 在 于 8.1 节 的 “证 明 ” 被 迫 忽略 了 一 些 实际 限制 ， 在 
任何 真实 计算 机 上 ， C 语 言 (或 任何 其 他 程序 设计 语言 ) 的 每 种 实现 都 带 有 这 些 限制 。 但 是 这 些 
限制 (比如 地 址 空间 的 大 小 ) 都 不 是 根本 性 限制 。 倒 不 如 说 ， 随 着 时 光 流 逝 ; 从 一 些 方面 来 衡 
量 ， 比 如 地 址 空间 的 大 小 、 主 存 的 大 小 以 及 其 他 等 等 ， 可 以 预期 计算 机 将 要 发 生 不 确定 的 增长 了 

通过 把 注意 力 集中 到 不 存在 这 些 限制 的 图 灵机 上 ， 就 能 更 好 地 把 握 这 个 本 质 的 思想 : 某 种 
计算 装置 能 做 什么 ， 假 如 今天 还 不 能 ， 那 么 在 将 来 某 个 时 刻 能 。 在 本 章 中 ， 将 要 形式 化 地 证 明 ; 
任何 图 灵机 都 不 能 解答 的 与 图 灵机 有 关 的 问题 的 存在 性 。 从 8.6 节 知道 ， 图 灵机 可 以 模拟 真实 计 
算 机 ， 甚 至 模拟 那些 没有 目前 已 知 存在 的 限制 的 计算 机 ， 所 以 ， 本 章 将 要 严格 论证 ;无论 多 么 
慷慨 地 放松 那些 实际 限制 ， 计 算 机 都 不 能 解答 下 面 这 个 问题 : 


* 这 个 图 灵机 接受 由 其 自身 (的 编码 ) 构成 的 输入 吗 ? 


然后 ， 把 图 灵机 可 以 解答 的 问题 分 成 两 类 : 有 算法 ( 即 无 论 是 否 接受 输入 ， 都 停机 的 图 灵 
机 ) 的 问题 和 那些 只 能 由 下 面 这 些 图 灵机 来 解答 的 问题 : 这 些 图 灵机 在 不 接受 的 输入 上 ， 可 能 
死 循 环 。 后 一 种 接受 形式 是 有 问题 的 ， 因 为 无 论 这 个 TM 运 行 了 多 久 ， 都 无 法 知道 是 否 接受 输入 。 
因此 ， 我 们 将 要 把 注意 力 集中 到 一 些 技术 上 ， 这 些 技术 用 来 证 明 一 些 问题 是 “不 可 判定 的 "， 即 
这 些 问题 没有 算法 ， 无 论 在 某 些 输入 上 不 停机 的 图 灵机 是 否 接受 这 些 问题 。 

下 面 将 证 明 下 列 问题 是 不 可 判定 的 : 


* 这 台 图 灵机 接受 这 个 输入 吗 ? 


然后 ， 利 用 这 个 不 可 判定 性 结果 来 证 明 许多 其 他 不 可 判定 问题 。 例 如 ， 证 明 ， 与 一 台 图 灵 
机 所 接受 的 语言 有 关 的 所 有 非 平凡 问题 都 是 不 可 判定 的 ， 以 及 许多 与 图 灵机 、 程 序 或 计算 机 根 
本 无 关 的 问题 是 不 可 判定 的 。 


9.1 非 递归 可 枚 举 语 言 


回忆 一 下 ， 如 果 对 于 某 个 TM MHL = LM)， 则 语言 L 是 递归 可 枚 举 的 (缩写 为 RE)。 另 外， 
在 9.2 节 中 将 要 介绍 “递归 的 ”或 “可 判定 的 ”语言 ， 这 些 语言 不 仅 是 递归 可 枚 举 的 ， 而 且 被 无 
论 是 否 接受 都 总 是 停机 的 TM 所 接受 。 

本 节 的 长 远 目标 是 证 明 ， 由 这 样 的 有 序 对 (M, w) 组 成 的 语言 是 不 可 判定 的 ， 其 中 : 

1.M 是 具有 输入 字母 表 {0, 1} 的 图 录 机 (用 二 进 制 适当 地 编码 过 )。 

2.w 是 0 和 1 的 串 。 

3.M 接 受 输入 w。 
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如 果 把 输入 限制 在 二 进 制 字母 表 上 时 ， 这 个 问题 是 不 可 判定 的 ， 那 么 让 TM 具 有 任意 字母 表 这 样 
的 更 一 般 问题 就 肯定 是 不 可 判定 的 。 

第 一 步 是 把 这 个 问题 叙述 成 关于 一 个 具体 语言 成 员 性 的 真正 问题 。 因 此 ， 必 须 给 出 一 种 无 
论 TM 有 多 少 种 状态 ， 都 只 使 用 0 和 1 的 图 灵 灿 编码 。 一 旦 有 了 这 种 编码 ， 就 可 以 把 任意 二 进 制品 
当 作 是 图 灵机 。 如 果 一 个 串 不 是 某 台 TM 的 合法 表示 ， 就 认为 这 个 串 表示 一 台 没 有 任何 移动 的 
TM。 因 此 ， 可 以 认为 每 个 二 进 制 串 都 是 某 台 TM。 

一 个 中 间 目 标 ， 也 就 是 本 节 的 主题 ， 涉 及 语言 BG， 即 “ 对 角 化 语言 "， 这 个 语言 由 所 有 使 得 
mw 所 表示 的 TM 不 接受 输入 w 的 串 w 组 成 。 我 们 将 要 证 明 ; 根本 没有 TM 接受 语言 Lz。 记 住 ， 证 明 
根本 没有 图 灵机 接受 一 个 语言 ， 比 证 明 一 个 语言 是 不 可 判定 的 〈 即 没有 算法 或 没有 总 是 停机 的 
TM) 证 明了 更 强 的 结论 。 

语言 起 到 一 种 与 8.1.2 节 假设 的 程序 如 相 类 似 的 作用 ， 每 当 右 的 输入 以 自身 作为 输入 而 不 
显示 hello，world 时 ， 朋 ,就 显示 hel1o，world。 更 准确 地 说 ， 当 把 甩 自 身 作为 输入 时 ，HH， 
的 反应 是 悖 论 ， 所 以 万 不 可 能 存在 ， 正 是 因为 这 样 ，Ls 才 不 可 能 被 图 灵机 所 接受 ， 因 为 假如 Li 补 
一 全 TM 所 接受 ， 那么 当 以 这 台 TM 自 身 编码 作为 输入 时 ， 这 人 台 TM 将 不 得 不 自 相 矛盾 。 


9.1.1 枚 举 二 进 制 串 


在 下 面 的 讨论 中 ， 将 有 必要 把 整数 指派 给 所 有 二 进 制 串 ， 使 得 每 个 串 对 应 一 个 整数 ， 并 且 
每 个 整数 对 应 一 个 串 。 如 果 w 是 二 进 制品， 就 把 lw 当 作 二 进 制 整 数 ;。 于 是 将 要 把 w 称 为 第 ;个 串 。 
也 就 是 说 ， 绅 第 一 个 串 ，0 是 第 二 个 种 ，1 是 第 三 个 串 ，00 是 第 四 个 串 ，01 是 第 五 个 串 ， 依 此 类 
推 。 等 价 地 说 ， 把 这 些 串 按 长 度 排序 ， 把 等 长 的 串 按 字典 序 排序 。 此 后 ， 将 要 把 第 ;个 串 称 为 w。 


9.1.2 图 灵机 编码 


下 一 个 目标 是 设计 图 灵机 的 二 进 制 编码 ， 使 得 可 以 认为 具有 输入 字母 表 {0, 1} 的 每 个 TM 都 
是 二 进 制 串 。 因 为 刚才 看 到 过 如 何 枚 举 二 进 制 串 ， 所 以 将 要 把 图 灵机 等 同 于 整数 ， 并 且 可 以 谈 
论 “ 第 个 图 灵机 M”。 为 了 把 TM M = (Q, {0,1}, T, ô, qı, B, F) 表示 成 二 进 制 串 ， 必 须 首先 把 整数 
指派 给 状态 、 带 符号 以 及 方向 L 和 R。 

“我 们 将 要 假设 :对 于 某 个 "， 状 态 是 q1, q;, …, qi。 初始 状态 将 总 是 91/，g: 将 是 惟一 的 接受 状 

态 。 注 意 ， 因 为 假设 每 当 TM 进 入 接受 状态 时 就 停机 ， 所 以 从 不 需要 多 于 一 个 接受 状态 。 

“我 们 将 要 假设 :对 于 某 个 s， 带 符号 是 Xi, X =, X,。Xi 将 永远 是 符号 0， 为 将 是 1，%% 将 是 B 

(空格 )。 但 是 ， 其 他 带 符号 可 以 任意 地 指派 给 其 余 的 整数 。 

*， 我 们 将 要 把 方向 L 称 为 D， 而 把 方向 R 称 为 D;。 
因为 可 以 用 许多 不 同 的 顺序 把 整数 指派 给 每 个 TM _M 的 状态 和 带 符号 ， 所 以 典型 的 TM 将 有 超过 
一 个 的 编码 。 但 是 ， 这 个 事实 在 下 面 并 不 重要 ， 因 为 将 要 证 明 : 没有 任何 编码 能 表示 TM M， 使 
ILM) = La, 

一 旦 选 定 了 整数 表示 每 个 状态 、 符 号 以 及 方向 ， 就 能 编码 转移 函数 5。 假 设 对 于 某 些 整 数 i 
刻 上 4,m， 一 条 转移 规则 是 gi, X;) = (qe, Xi, Do)。 将 要 把 这 个 规则 编码 成 串 01010xiO10"。 注 意 ， 
因为 i,j,k,1,m 都 至 少 是 1， 所 以 在 单个 转移 的 编码 中 ， 没 有 两 个 以 上 连续 的 1。 
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整个 TM W 的 编码 由 转移 的 所 有 编码 组 成 ， 按 照 某 种 顺序 排列 ， 用 成 对 的 1 分 隔 ; 
CNCA- Cri11C, 


其 中 每 个 C, 都 是 W 的 一 个 转移 的 编码 。 


例 9.1 设 讨论 的 TM 是 
M= ({q1,42, 4s}, (0, 1}, {0, 1, B}, 6, q1, B, {92} ) 
6 包括 规则 : 
(qi, 1) = qs, 0, R) 
(gs, 0) = (qi, 1, R) 
(qs, 1) = (q2, 0, R) 
&(qs, B) = (qs, 1, L) 
其 中 每 条 规则 的 编码 分 别 是 : 
0100100010100 
0001010100100 
00010010010100 
0001000100010010 
例如 ， 第 一 条 规则 可 以 写成 %q,, X) = (qs, Xi, D2), WAL =X, O= Xi, HR =D Akt, wE 
示 ， 这 条 规则 的 编码 是 0'10?10310'10?。M 的 编码 是 
01001000101001100010101001001100010010010100110001000100010010 
注意 ，M 有 许多 其 他 的 可 能 编码 。 具 体 地 说 ， 可 以 用 4! 种 顺序 中 任意 一 种 来 列 出 这 四 个 转移 的 
编码 ， 这 样 就 给 出 M 的 24 种 编码 。 o 


在 9.23 节 中 ， 将 会 需要 编码 由 TM 和 串 组 成 的 有 序 对 (M, w)。 对 于 这 个 有 序 对 使 用 这 样 的 编 
码 : M 编 码 后 面 接着 111， 再 后 面 接着 w。 注 意 ， 没 有 TM 的 有 效 编码 可 以 包含 连续 三 个 1， 所 以 
可 以 确保 111 的 首次 出 现 把 M 的 编码 与 w 分 开 。 例 如 ， 如 果 M 是 例 9.1 的 TM，w 是 1011， 则 (M, w) 
的 编码 就 是 在 例 9.1 末 尾 所 示 的 串 后 面 接着 1111011。 


9.1.3 对 角 化 语言 


在 9.12 节 中 编码 了 图 灵机 ， 所 以 现在 有 了 M,( 即 “第 i 个 图 灵机 ”) 的 具体 概念 : TM Mi 的 编 
码 是 第 ;个 二 进 制 串 wi。 许 多 整数 根本 不 对 应 任何 TM。 例 如 ，11001 不 以 0 开头 ， 而 
0010111010010100 有 三 个 连续 的 1。 如 果 wi 不 是 有 效 的 TM 编码 ， 则 将 认为 M; 是 一 台 具 有 一 个 状 
态 但 没有 转移 的 TM。 也 就 是 说 ， 对 于 这 些 i 值 ，Mi 是 一 台 在 任何 输入 上 都 立即 停机 的 TM。 因 此 ， 
如 果 wi 不 是 有 效 的 TM 编 码 ， 则 MI) 是 纪 。 

现在 ， 可 以 做 出 一 个 至 关 重要 的 定义 。 


。 语 言 lL， 即 对 角 化 语言 ， 是 使 得 wi 不 属于 L(Mi) 的 串 w, 的 集合 。 
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也 就 是 说 ， 当 给 定 w 作 为 输入 时 ， 编 码 为 w 的 TM M 不 接受 这 个 输入 ，Ls 就 由 这 样 的 串 w 组 成 。 

如 果 考 虑 图 9-1， 就 能 明白 把 Ls 称 为 “对 角 化 ”语言 的 原因 。 这 个 表 说 明 ， 对 于 所 有 的 ;Ij， 
TM 1M 是 否 接受 输入 串 w， 1 意味 着 “是 ， 接 受 "，0 意 味 着 “ 否 ， 不 接受 ”。 。 可 以 认为 ， 第 ; 行 
是 语言 KM) 的 特 在 向 量 ， 即 这 行 中 的 1 表示 属于 这 个 语言 的 串 。 j 

对 角 线 的 值 说 明 M ETR Ew. WT EL, EAMA. 
例如 ， 假 如 图 9-1 是 正确 的 表 ， 则 取 补 的 对 角 线 应 当 以 1, 0, 0, 
0, Fk. Ale, Le 应 当 包含 w = s， 而 不 包含 从 w: 到 w 的 串 ， i 
这 三 个 申 是 0, 1,00， 依 此 类 推 。 

把 对 角 线 取 补 来 构造 一 个 语言 的 特征 向 量 ， 这 个 语言 不 可 能 
在 任何 行 中 出 现 ， 这 个 技巧 称 为 对 角 化 。 对 角 化 起 作用 ， 是 因为 fe (annie 
对 角 线 的 补 本 身 是 描述 某 个 语言 (Le) 成 员 性 的 特征 向 量 。 这 对 角 线 
个 特征 向 量 与 图 9-1 所 示 的 每 一 行 都 在 某 一 列 上 不 同 。 因 此 ,对 图 9-1 colonels 
角 线 的 补 不 可 能 是 任何 图 灵机 的 特征 向 量 。 


9.1.4 证明 Ls 非 递归 可 枚 举 


在 关于 特征 向 量 和 对 角 化 的 上 述 直觉 的 引导 下 ， 现 在 将 要 形式 化 地 证 明 一 个 关于 图 灵机 的 
基本 结果 : 不 存在 接受 语言 Lv 的 图 灵机 。 


定理 9.2 Li 不 是 递归 可 枚 举 语言 。 也 就 是 说 ， 不 存在 接受 语言 Ls 的 图 灵机 。 

证 明 ”假设 对 于 某 个 TM M, La ÈLM), WAL EFRO, 1} 上 的 语言 ， 所 以 M 应 当 在 已 
经 构造 的 图 灵机 表 中 ， 因 为 这 个 表 包含 了 具有 输入 字母 表 {0, 1} 的 所 有 TM。 因 此 ，M 至 少 有 一 
个 编码 ， 比 如 也 就 是 说 ，M = Mi。 

现在 ， 询 问 w 是 否 属于 Le。 

“如 果 w 属 于 Lo; 则 Mi 接受 w。 但 是 ， 根 据 Lu 的 定义 ，wi 不 属于 Le ， 因 为 Lv 只 包含 使 得 Mi 不 

接受 mw 这 样 的 w。 

“同样 ， 如 果 w 不 属于 Ce， 则 Mi 不 接受 w 。 因 此 ， 根 据 Le 的 定义 ，wi 属 于 Lu。 
wi 不 能 既 属 于 Ls 又 不 属于 Ls， 所 以 结论 是 ，M 存 在 这 个 假设 包含 矛盾 。 也 就 是 说 ，Ls 不 是 递归 可 
枚 举 语言 。 口 


9.1.5 习题 





习题 9.1.1 下 面 所 示 是 什么 串 : 
* a) wn? 
b) wioo? 
习题 9.1.2 写 出 图 8-9 中 的 图 灵机 的 一 种 可 能 编码 。 


! 习题 9.1.3 这 里 是 两 个 语言 的 定义 ， 虽 然 这 些 语言 与 4 类似 ,但 是 却 与 不 同 。 对 二 每 个 语 


日 ”应 当 注意 ， 实 际 的 表 一 点 也 不 像 这 个 图 所 示 的 表 。 所 有 的 小 整数 都 不 表示 有 效 的 TM 编码 ， 因 此 都 表示 没有 移 
动 的 平凡 TM， 所 以 这 个 表 的 顶 上 几 行 其 实 都 是 清一色 的 0。 
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言 ， 使 用 对 角 化 类 型 的 论证 来 证 明 这 个 语言 不 能 被 图 灵机 所 接受 。 注 意 ， 不 能 基于 对 角 线 本 身 
来 发 展 论证 ， 而 必须 在 图 9-1 所 示 和 矩阵 中 找 出 男 一 个 无 穷 的 点 序列 。 
*a) 所 有 使 得 M2 不 接受 w; 的 wi 的 集合 。 
b) 所 有 使 得 Mi 不 接受 w2: 的 wi 的 集合 。 

! 习题 9.1.4 ”仅仅 考虑 了 具有 输入 字母 表 {0, 1} 的 图 灵机 。 假 设想 要 给 无 论 什么 输入 字母 表 的 
所 有 图 灵机 都 指派 整数 。 这 是 不 太 可 能 的 ， 因 为 虽然 状态 或 非 输入 带 符号 的 名 称 是 任意 的 ， 但 
是 具体 的 输入 符号 却 是 有 影响 的 。 例如 ,语言 {0"1"1n 之 1} 和 {a"b"1n>1} 尽 管 在 某 种 程度 上 相似 ， 
但 却 不 是 相同 的 语言 ， 所 以 被 不 同 的 TM 所 接受 。 但 是 ， 可 以 假设 : 所 有 TM 输入 字母 表 都 是 从 
无 穷 符 号 集合 {a1, an …} 中 挑选 的 。 说 明 如 何 可 以 给 所 有 这 样 的 图 灵机 都 指派 一 个 整数 ， 这 些 图 
灵机 都 用 这 些 符号 的 有 穷 子 集 合 来 作为 输入 字母 表 。 


9.2 是 递归 可 枚 举 但 不 可 判定 的 问题 


现在 ， 已 经 看 到 了 一 个 为 任何 图 灵机 所 不 接受 的 问题 ， 即 对 角 化 语言 Zu。 下 一 个 目标 是 ; 
把 递归 可 枚 举 (RE) 语言 ( 即 TM 所 接受 的 语言 ) 的 结构 细 分 成 两 类 。 第 一 类 对 应 着 通常 认为 
是 算法 的 那些 语言 ， 这 些 语言 各 自 都 拥有 一 台 图 灵机 ， 这 台 图 灵机 不 仅 识别 这 个 语言 ， 而 且 还 
在 已 经 判定 了 输入 捉 不 属于 这 个 语言 时 发 出 通知 。 这 样 的 图 灵机 最 终 无 论 是 否 到 达 接受 状态 ， 
最 终 总 是 停机 。 

第 二 类 语言 由 任何 具有 停机 保证 的 图 灵机 都 不 接受 的 RE 语言 组 成 。 这 些 语言 以 不 方便 的 方 
式 被 接受 ， 如 果 输 入 属于 语言 ， 则 最 终 知 道 这 个 结论 ， 但 如 果 输 入 不 属于 语言 ， 则 图 灵机 可 以 
死 循环 ， 将 永远 不 能 肯定 最 终 不 接受 这 个 输入 。 正 如 将 要 看 到 的 ， 这 种 类 型 的 语言 的 一 个 例子 
是 : 使 得 TM M 接 受 输入 w 的 一 些 编码 对 (M,w) 的 集合 。 


9.2.1 递归 语言 


如 果 对 于 某 个 图 灵机 M，L =L(M)， 使 得 : 

1. 如 果 w 属 于 L， 则 MM 接受 (因此 MM 停机 )。 

2. 如 果 w 不 属于 L， 则 M 最 终 停 机 ， 但 M 永 远 不 进入 接受 状态 。 
则 说 语言 z 是 递归 的 。 这 种 类 型 的 TM 对 应 着 “算法 ”的 一 种 非 形式 化 概念 ， 即 总 是 终止 并 产生 
答案 的 、 有 确切 定义 的 步 又 序列 。 如 果 像 通常 那样 ， 认 为 语言 5 是 “问题 "， 那 么 若是 递归 语言 ， 
则 问题 5 称 为 可 判定 的 ， 若 不 是 递归 语言 ， 则 5 称 为 不 可 判定 的 。 

解答 一 个 问题 的 算法 的 存在 性 或 不 存在 性 ， 通 常 比 解答 这 个 问题 的 某 台 TM 的 存在 性 更 加 重 
要 。 因 为 前 面 说 过 ， 不 保证 停机 的 图 灵机 可 能 不 能 给 出 足够 的 信息 ， 来 最 终 得 出 结论 说 ; 一 个 串 
不 属于 这 个 语言 ， 所 以 在 某 种 程度 上 ， 这 些 TM 没 有 “解答 问题 "。 因 此 ， 把 问题 或 语言 划分 成 可 
判定 的 《算法 解答 的 问题 ) 与 不 可 判定 的 ， 比 划分 递归 可 枚 举 语言 (具有 某 种 类 型 TM 的 语言 ) 
与 非 递归 可 枚 举 语言 (根本 没有 TM 的 语言 ) 更 加 重要 。 图 9-2 说 明 在 这 三 个 语言 类 之 间 的 关系 : 

1. 递 归 语 言 。 

2. 递 归 可 枚 举 但 非 递归 的 语言 。 

3. 非 递归 可 枚 举 〈 非 RE) 语言 。 
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图 9-2 递归 语言 、RE 语 言 以 及 非 RE 语言 之 间 的 关系 


已 经 正确 地 定位 了 非 RE 语言 ls， 还 说 明了 语言 吃 ， 即 “通用 语言 "， 不 久 将 证 明 : 虽然 .是 
RE, 但 不 是 递归 的 。 





为 何 用 “递归 的 2 

如 今 的 程序 员 都 熟悉 递归 函数 。 但 是 这 些 递归 函数 似乎 与 总 是 停机 的 图 灵机 没有 任何 
关系 。 更 糟糕 的 是 ， 相 反 的 概念 〈 非 递归 的 或 不 可 判定 的 ) 是 指 不 能 被 任何 算法 所 识别 的 
那些 语言 ， 但 是 习惯 认为 ,“ 非 递归 的 ”是 指 那些 简单 到 不 需要 递归 函数 调用 的 计算 。 

术语 “递归 的 "， 作 为 “可 判定 的 ”同义词 ， 可 以 追根 溯源 到 数学 ， 因 为 在 计算 机 之 前 
这 个 术语 就 存在 了 。 后 来 ， 基 于 递归 (不 是 迭代 或 循环 ) 的 对 计算 的 形式 化 ， 被 普遍 用 来 
作为 计算 的 记号 。 这 些 记 号 与 函数 式 程序 设计 语言 (比如 LISP 或 ML) 的 计算 有 几 分 相似 ， 
这 里 将 不 讨论 这 些 记号 。 在 这 种 意义 下 ， 说 一 个 问题 是 递归 的 ， 就 具有 肯定 意义 :“ 这 个 
问题 足够 简单 ， 可 以 写 递归 函数 来 解答 这 个 问题 ， 并 且 这 个 函数 总 是 终止 "。 这 恰好 是 这 
个 术语 当今 所 包含 的 意思 ， 与 图 灵机 有 联系 

术语 “递归 可 枚 举 "， 可 以 追根 溯源 到 同样 一 族 概念 。 一 个 函数 可 以 按照 某 种 顺序 来 列 
举 语言 的 所 有 成 员 ， 也 就 是 说 ， 这 个 函数 可 以 “ 枚 举 ” 这 些 成 员 。 可 以 让 其 成 员 按照 某 种 
顺序 列举 出 来 的 语言 ， 与 被 某 个 TM 所 接受 的 语言 是 相同 的 ， 虽 然 TM 可 能 在 不 接受 的 输入 
上 死 循环 。 











9.2.2 递归 语言 和 递归 可 枚 举 语言 的 补 


在 证 明 一 些 语言 属于 图 9-2 第 二 个 环 〈 即 是 RE 但 不 是 递归 的 ) 方面 ， 得 力 的 工具 是 考虑 这 个 
语言 的 补 。 我 们 将 要 证 明 : 递归 语言 对 于 补 是 封闭 的 。 因 此 ， 如 果 一 个 语言 5 是 RE; 但 Z 的 补 
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不 是 RE， 则 可 以 知道 不 可 能 是 递归 的 。 因 为 假如 [是 递归 的 ， 则 工 也 应 当 是 递归 的 ， 因 此 肯定 
是 RE。 现 在 证 明 递归 语言 的 这 个 重要 封闭 性 。 


定理 9.3 如 果 L 是 递归 语言 ， 则 工 也 是 递归 语言 。 
证 明 对 于 某 个 总 是 停机 的 TM M, 设 L=L(M)。 通过 图 9-3 所 示 的 构造 ,来 构造 一 个 TM M. 
使 得 荆 =L( 斩 )。 也 就 是 说 ， 万 的 行为 完全 类 似 于 M。 但 是 ，M 经 过 如 下 修改 以 产生 M : 

1.M 的 接受 状态 都 变 成 肝 的 非 接受 状态 ， 这 些 状态 都 没有 转移 ， 即 在 这 些 状 态 中 ， 及 将 停 
机 不 接受 。 

2. 及 有 一 个 新 的 接受 状态 r， 没有 从 r 出 发 的 转移 。 

3. 对 于 使 得 W 没 有 转移 〈( 即 1 停机 不 接受 ) 的 M 的 非 接受 状态 和 M 的 带 符号 的 每 种 组 合 ， 都 
添加 一 个 到 接受 状态 "的 转移 。 





接受 接受 





图 9-3 接受 一 个 递归 语言 的 补 的 一 台 TM 的 构造 
由 于 M 保 证 停机 ， 所 以 知道 MERE OL. TE, 及 恰好 接受 M 所 不 接受 的 串 。 因 此 M t 
RL. o 
关于 语言 的 补 ， 有 另 一 个 重要 事实 ， 这 个 事实 进一步 限制 了 在 图 9-2 的 示意 图 中 ， 一 个 语言 
和 这 个 语言 的 补 可 以 落 在 何 处 。 把 这 个 限制 陈述 在 下 一 个 定理 中 。 


定理 9.4 。 如 果 一 个 语言 2 和 这 个 语言 的 补 都 是 RE， 则 Z 是 递归 的 。 注 意 ， 根 据 定理 93， 工 
也 是 递归 的 。 

证 明 这 个 证 明 如 图 9-4 所 示 。 设 L = LA) 且 工 = L(M2), TM MM 平行 地 模拟 Mi 和 M;。 可 以 设 
M 是 2 带 TM， 然 后 把 M 转 化 成 1 带 TM， 让 这 个 模拟 既 容 易 又 明显 。M 的 一 条 带 模拟 MI 的 带 ，M 的 
另 一 条 带 模拟 M2 的 带 。Mi 和 M2 的 状态 分 别 是 M 的 状态 的 一 个 分 量 。 

















图 9-4 模拟 接受 一 个 语言 及 其 补 的 两 个 TM 
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如 果 M 的 输入 w 属 于 L， 则 MM 最 终 将 接受 。 如 果 这 样 ， 则 M 接 受 并 且 停 机 。 如 果 w 不 属于 L; 
则 w 属 于 工 ， 所 以 MM 最 终 将 接受 。 当 MM 接受 时 ，M 停 机 不 接受 。 因 此 ， 在 所 有 输入 .上 M 都 停机 ， 
LM) 恰 好 是 L。 因 为 M 总 是 停机 ， 且 L(M) = 工 ， 所 以 结论 是 z 是 递归 的 。 口 


可 以 把 定理 9.3 和 定理 9.4 总 结 如 下 。 在 图 9-2 示 意图 中 ,语言 :及 其 补 五 的 9 种 可 能 安排 方式 
中 ， 只 有 下 列 4 种 是 可 能 的 : 

1.L 和 工 都 是 递归 的 即 两 者 都 在 内 环 中 。 

2.L 和 工 都 不 是 RE， 即 两 者 都 在 外 环 中 。 

3.7 是 RE 但 不 是 递归 的 ， 工 不 是 RE， 即 一 个 在 中 环 中 ; 另 一 个 在 外 环 中 。 

4. 工 是 RE 但 不 是 递归 的 ，L 不 是 RE 即 与 (3) 一 样 ， 但 5 和 工 互 换 。 

在 上 述 结论 的 证 明 中 ， 定 理 9.3 消 除了 下 面 这 种 可 能 性 : 一 个 语言 (LRE) 是 递归 的 ， 而 
另 一 个 语言 属于 其 他 两 类 之 一 。 定 理 9.4 消 除了 下 面 这 种 可 能 性 : 两 个 语言 都 是 RE， 但 都 不 是 弟 
归 的 。 


例 9.5 ”作为 一 个 例子 ， 考 虑 语言 25 ， 已 知 [ 不 是 RE。 因 此 ， 茎 不 可 能 是 递归 的 。 但 是 有 
两 种 可 能 : 要 么 L 是 非 RE， 要 么 元 是 RE 但 不 是 递归 的 。 事 实 上 是 后 者 。 

T, 是 使 得 Mi 接受 wi 的 串 wi 的 集合 。 这 个 语言 类 似 于 通用 语言 L,，L, 由 所 有 这 样 的 (M, WW) 对 
组 成 ， 使 得 M 接 受 w， 将 要 在 93 节 中 证 明 : L, 是 RE。 同 样 的 论证 可 以 用 来 证 明 ; LIRE, o 


9.2.3 通用 语言 


在 8.6.2 节 中 ， 已 经 非 形式 化 地 讨论 过 图 灵机 如 何 可 以 用 来 模拟 装 入 了 任意 程序 的 计算 机 。 
也 就 是 说 ， 单 个 的 图 灵机 可 以 用 来 作为 “存储 程序 的 计算 机 ”， 从 一 条 或 多 条 带 上 来 获取 程序 和 
数据 ， 输 入 就 放 在 这 些 带 上 。 在 本 节 中 ， 将 要 更 加 形式 化 地 重复 这 个 思想 ， 这 种 形式 化 来 自 于 
把 图 灵机 说 成 是 已 存储 的 程序 的 表示 。 

定义 L。( 即 通用 语言 ) 是 这 样 一 些 二 进 制 串 的 集合 ， 这 些 二 进 制 串 是 用 9.1.2 节 记号 编码 的 
有 序 对 (M, w)， 使 得 w 属 于 L(M)， 其 中 M 是 具有 二 
进 制 输入 字母 表 的 TM，w 是 (0 + D 中 的 串 。 也 就 
是 说 ，L, 是 表示 一 台 TM 和 这 人 台 TMj 所 接受 的 输入 的 
一 些 串 的 集合 。 我 们 将 要 证 明 : 存在 TM U， 通 党 
称 为 通用 图 灵机 ， 使 得 L。 = L(U)。 因 为 U 的 输入 是 
二 进 制 串 ， 所 以 U 其 实 是 二 进 制 输 入 图 灵机 的 列表 ”输入 
中 的 某 个 M， 在 9.1.2 节 中 发 展 了 这 个 列表 。 

按照 图 8-22 的 思路 ， 把 U 描 述 成 多 带 图 灵机 ， 
这 是 最 容易 的 。 在 U 的 情形 中 ，M 的 转移 和 串 w 在 
开始 时 都 保存 在 第 一 条 带 上 。 第 二 条 带 将 用 来 保存 
所 模拟 的 M 的 带 ， 使 用 与 M 的 编码 相同 的 格式 。 也 
就 是 说 ，W 的 带 符号 X 将 表示 成 0'， 带 符号 用 单个 1 
分 隔 。U 的 第 三 条 带 保存 M 的 状态 ， 状 态 qi 表示 成 图 9-5 一 台 通 用 图 灵机 的 组 织 





M 的 带 0001000001010001 *** 


M 的 状态 000 = OBB 








草稿 
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40, 4 的 草图 在 图 %5 中 。 

M 的 操作 可 以 小 结 如 下 : 

1. 检 查 输入 ， 以 确保 M 的 编码 是 某 个 TM 的 合法 编码 。 如 果 不 是 ， 则 U 停 机 不 接受 ; 因为 假 
设 了 无 效 编码 表示 没有 移动 的 TM， 并 且 这 样 的 TM 不 接受 任何 输入 ， 所 以 这 个 动作 是 正 
确 的 。 

2. 初始 化 第 二 条 带 ， 使 之 以 编码 的 形式 包含 输入 w。 也 就 是 说 ， 对 于 w 的 每 个 0， 在 第 二 条 
带 上 写 上 10， 对 于 w 的 每 个 1， 在 第 二 条 带 上 写 上 100。 注 意 ， 在 M 的 被 模拟 带 上 的 空格 
(这 些 空 格 用 1000 表 示 )， 其 实 将 不 出 现在 第 二 条 带 上 ， 除了 w 使 用 的 单元 之 外 ， 所 有 单元 
都 将 包含 U 的 空格 。 但 是 ，U 知 道 ， 假 如 U 在 寻找 M 的 被 模拟 符号 ， 并 找到 U 自 身 的 空格 ， 
则 U 几 须 把 这 个 空格 换 成 序列 1000， 以 模拟 M 的 空格 。 

3.400 (M 的 初始 状态 ) 写 在 第 三 条 带 上 ， 把 U 的 第 二 条 带 的 带头 移动 到 第 一 个 被 模拟 单元 。 

4. 为 了 模拟 MW 的 一 步 移动 0 在 自己 的 第 一 条 带 上 查找 010'10410'10", 使 得 0' 是 带 3 上 的 状态 ， 
0 是 在 带 2 上 从 U 扫 描 的 位 置 开 始 的 M 的 带 符号 。 这 个 转移 是 M 下 一 步 将 进行 的 转移 二 应 
该 完成 以 下 操作 : 

(a) 把 带 3 的 内 容 改 成 0t， 也 就 是 说 ,模拟 M 的 状态 改变 。 为 了 这 样 做 ，U 首 先 把 带 3 上 所 
有 0 都 改 成 空格 ， 然 后 把 0 从 带 1 复制 到 带 3 上 。 

(b) 把 带 2 上 0/ 换 成 0'， 也 就 是 说 ， 改 变 M 的 带 符号 。 如 果 需 要 增 减 空 间 ( 即 i 关 !)， 则 用 草 
稿 带 和 8.6.2 节 的 平移 技术 来 调整 空间 。 

(©) 根据 是 否 m = 1 (向 左 移 动 ) 或 m = 2 (向 右 移动 )， 把 带 2 上 带头 分 别 向 左 或 右 移 到 下 
一 个 1 的 位 置 。 因 此 ，U 模 拟 M 向 左 或 向 右 移动 。 

5. 如 果 M 没 有 与 所 模拟 的 状态 和 带 符号 匹配 的 转移 ， 则 在 (4) 中 将 找 不 到 转移 。 因 此 ，M 在 
所 模拟 格局 中 停机 ，U 必 须 同样 停机 。 

6. 如果 M 进 入 接受 状态 ， 则 U 接 受 。 

以 这 样 的 方式 ，U 在 w 上 模拟 M。U 接 受 编码 对 (M, w)， 当 且 仅 当 M 接 受 w。 
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更 有 效 的 通用 TM 


U 对 M 的 一 种 有 效 的 模拟 《这 种 模拟 可 能 不 要 求 在 带 上 平移 符号 )， 可 以 让 U 首 先 确 定 
MM 使 用 的 带 符号 数 。 如 果 存 在 从 2“'+1 到 2: 之 间 这 么 多 个 符号 ， 则 U 可 以 用 位 二 进 制 编码 来 
惟一 表示 不 同 的 带 符号 。 可 以 用 k 个 U 的 带 单元 来 模拟 M 的 带 单元 。 为 了 让 模拟 变 移 更 加 容 
易 ，U 可 以 改写 M 的 给 定 转 移 ， 以 便 用 固定 长 度 二 进 制 编码 来 代替 已 经 介绍 过 的 可 变 长 度 
一 进 制 编码 。 











9.2.4 通用 语言 的 不 可 判定 性 


现在 可 以 展示 一 个 问题 ， 这 个 问题 是 RE 但 不 是 递归 的 ， 这 就 是 语言 几 。 知 道 态 是 不 可 判定 
的 〈 即 不 是 递归 语言 ) 比 先前 发 现 L 不 是 RE 在 许多 方面 都 更 有 价值 。 原 因 在 于 ， 从 ,到 一 个 间 
题 P 的 归 约 ， 无 论 P 是 否 是 RE， 都 可 以 用 来 证 明 不 存在 解答 P 的 算法 。 但 是 ;从 到 P 的 归 约 ， 只 
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有 当 P 不 是 RE 时 ， 才 是 可 能 的 ， 所 以 Lu 不 能 用 来 证 明 下 面 这 样 一 些 问 题 的 不 可 判定 性 ， 这 些 问 
题 是 RE 但 不 是 递归 的 。 另 一 方面 ， 如 果 想 要 证 明 一 个 问题 不 是 RE， 则 只 能 用 已， 瓦 是 没有 用 的 ， 
KALARE, 





停机 问题 


人 们 常常 听 说 ， 图 灵机 的 停机 问题 是 一 个 与 L, 类 似 的 问题 ， 即 一 个 是 RE 但 不 是 递归 的 
HA. RKE, A. M. 图 灵 的 最 初 的 图 灵机 是 以 停机 方式 而 不 是 以 终结 状态 方式 来 接受 的 。 
对 于 TM M， 可 以 定义 H(M) 是 这 样 一 些 输入 w 的 集合 :使得 在 给 定 输入 w 时 ， 无 论 M 是 否 接 
受 w，M 都 停机 。 于 是 ， 停 机 问题 就 是 使 得 w 属 于 H(M) 的 一 些 有 序 对 (M, w) 的 集合 。 这 个 问 
题 (或 语言 ) 是 另 一 个 是 RE 但 不 是 递归 的 问题 的 例子 。 








定理 9.6 心 是 RE 但 不 是 递归 的 。 

证 明 ”在 9.2.3 节 中 ， 证 明 过 L, 是 RE。 假 设 L, 是 递归 的 。 于 是 根据 定理 9.3， Ly yth T, td: 
递归 的 。 但 是 ， 如 果 有 一 个 TM MER TMU ATL STM SARL (用 下 面 解释 的 方法 ) 。 
已 知 zw 不 是 RE， 所 以 到 是 递归 的 这 个 假设 包含 着 矛盾 。 

假设 LM) = 却 。 如 图 9-6 所 示 ， 可 以 把 TM M 修 改 成 TM M'，M' 接 受 L[4 如 下 。 


接受 接受 
w Ha] wlllw ae 
拒绝 拒绝 
Leff" 


图 9-6 从 Lu 到 去 的 归 约 


388) 1 给 定 串 w 作 为 输入 ， 在 检查 了 w 中 不 含 连续 的 三 个 1 之 后 ( 若 w 含 111， 则 立即 拒绝 w)，M' 
B58, 把 输入 改 成 w11lw。 读 者 可 以 〈 作 为 练习 ) 写 一 个 TM 程 序 来 在 单条 带 上 完成 这 个 步 又 。 
不 过 ， 可 以 这 样 做 的 一 个 容易 的 论证 是 用 第 二 条 带 复制 w， 然 后 把 2 带 TM 转 化 成 1 带 TM 
2. 在 新 的 输入 上 模拟 M。 如 果 w 是 前 述 枚 举 中 的 w , MUM EM 是 否 接受 w。1M 接 受 TAN 
所 以 MM 接受 当 且 仅 当 Mi 不 接受 ww， 即 w 属 于 Ls。 
因此 ，M' 接 受 w 当 且 仅 当 wi 属于 Ls。 根 据 定理 9.2， 可 以 知道 M' 不 可 能 存在 ， 所 以 结论 是 ; LÆ 
递归 的 。 口 

















9.2.5 习题 


习题 9.2.1 证明 : 停机 问题 是 RE 但 不 是 递归 的 。 停 机 问题 是 一 些 (M, w) 有 序 对 的 集合 ， (M, 
"使 得 当 给 定 输 入 w 时 ， 必 停机 (无论 接 受 或 不 接受 ) 。( 参 看 9.2.4 节 中 关于 “停机 问题 ”的 方 
HE.) 

习题 9.2.2 在 9.2.1 节 “为 何 用 “递归 的 ，? ” 方 框 中 提示 过 ， 存 在 着 “递归 函数 ” 的 概念 ， 


Download at http://www.pinSi.com/ 


TTH 265 





这 个 概念 与 图 灵机 竞争 作为 什么 是 可 以 计算 的 模型 。 在 本 题 中 ， 将 要 探讨 递归 函数 记号 的 一 个 
例子 。 一 个 递归 声 数 就 是 用 有 穷 多 条 规则 定义 的 一 个 函数 F。 每 条 规则 都 为 某 些 参 数 说 明 函 数 
的 值 ， 这 种 说 明 可 以 使 用 变 元 、 非 负 整 数 常数 、 后 继 (加 1) 函数 、 函 数 F 本 身 以 及 通过 函数 合 
成 从 这 些 对 象 构造 出 的 表达 式 等 。 例 如 ， 阿 克 曼 函 数 是 由 下 列 规则 定义 的 : 

1.A(0,y) = 1， 对 于 任意 的 y>0。 

2.4(1,0) =2。 

3.A(x,0) =x+2， 对 于 任意 的 x*>2。 

4.A(x+1,y+1) = AAG y+1), y), FEMA > OF HO, 
回答 下 列 问 题 : 

* a) RA(2, 1) 的 值 。 

1b) A(x, 2) 是 zx 的 什么 函数 ? 

1 c) 求 4(4,3) 的 值 。 

习题 9.2.3 ” 非 形式 化 地 描述 枚 举 下 列 整数 集合 的 多 带 图 灵机 ， 这 里 枚 举 的 意思 是 :从 一 些 
空白 带 开始 ， 在 一 条 带 上 显示 10%1021…， 以 表示 集合 {i, i, he 

*a) 所 有 完全 平方 数 的 集合 {1,4,9,…}。 

b) 所 有 素数 的 集合 {2, 3, 5,7, 11,…}。 
Mc) 所 有 使 得 M 接 受 w 的 i 的 集合 。 提 示 : 不 可 能 按照 数值 顺序 来 产生 所 有 这 些 i。 原 因 在 于 ， 
SAMAR (ANT, ) 是 RE 但 不 是 递归 的 。 事 实 上 ，RE 非 递归 语言 的 一 种 定义 就 是 ; 可 以 
枚 举 这 些 语言 ， 但 是 不 能 按照 数值 顺序 来 枚 举 。 枚 举 这 些 语言 的 根本 “技巧 ”在 于 ， 必 
须 在 所 有 w, 上 模拟 M;， 但 是 不 允许 任何 Mi 死 循 环 ， 因 为 一 旦 过 上 某 个 Mi, 在 w 上 不 停机 ， 
WAM ALA I, Mi 的 死 循 环 就 阻止 了 尝试 任何 其 他 的 Mi。 因 此 ， 必 须 以 分 成 轮 的 方式 操 
作 ， 在 第 ; 轮 中 只 尝试 有 穷 多 个 Mi， 并 只 尝试 有 穷 多 步 。 因 此 ， 每 轮 都 能 在 有 穷 时 间 内 完 
成 。 只 要 对 于 每 个 Mi 和 每 个 步 数 s 都 存在 某 一 轮 ， 使 得 该 轮 将 要 模拟 Mi 至 少 s 步 ， 则 最 终 
将 发 现 接受 wi 的 每 个 Mi 并 枚 举 i。 
* 习 题 9.2.4 itl, Le, Lt 是 字母 表 Z 上 语言 的 集合 ， 使 得 : 
1. 对 于 所 有 izj，LiNnLy=@， 即 没有 串 同时 属于 这 两 个 语言 。 
2.LUL2U…ULe=Z*"， 即 每 个 串 至 少 属于 这 些 语言 中 的 一 个 。 
3. 对 于 i = 1,2,…,k， 每 个 语言 都 是 递归 可 榴 举 的 。 
证 明 : 这 些 语言 中 每 个 都 是 递归 的 。 
村 习题 9.2.5 设 L 是 递归 可 枚 举 的 并 设 工 是 非 RE。 考 虑 语言 
L'= {0w1w 属 于 L}U {1w1w 不 属于 L }。 
能 否 肯定 地 说 L 或 其 补 是 递归 的 、RE 或 非 RE? 给 出 答案 的 理由 。 

! 习 题 9.2.6 除了 在 9.2.2 节 中 对 于 补 的 讨论 之 外 ， 还 没有 讨论 过 递归 语言 或 RE 语言 的 封闭 性 。 
区 分 一 下 递归 语言 或 RE 语言 对 下 列 运算 是 否 封闭。 可 以 给 出 非 形式 化 的 (但 清楚 的 ) 构造 来 证 
明 封闭 。 

*a) 并。 

bX. 
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c) Etk. 

D 克 林 闭 包 ( 星 号 ) 。 
*#e) fala. 

DEGEN 


93 与 图 灵机 有 关 的 不 可 判定 问题 


现在 将 要 使 用 语言 志和 Le (已 知 这 两 个 语言 关于 可 判定 性 和 递归 可 枚 举 性 的 状况 ) 来 证 明 其 
他 的 不 可 判定 或 非 RE 语言 。 在 这 些 证 明 的 每 一 个 当中 都 要 利用 归 约 技术 。' 首 批 不 可 判定 问题 都 
与 图 灵机 有 关 。 事 实 上 ， 本 节 中 的 讨论 最 终归 结 为 “ 莱 斯 定理 ”的 证 明 ， 这 个 定理 提出 ; 图 灵 
机 的 任何 只 依赖 于 TM 所 接受 的 语言 的 非 平凡 性 质 ， 都 一 定 是 不 可 判定 的 。9.4 节 将 研究 与 图 灵机 
和 图 灵机 的 语言 无 关 的 一 些 不 可 判定 问题 。 


9.3.1 归 约 


在 8.1.3 节 中 介绍 过 归 约 的 概念 。 一 般 说 来 ， 如 果 有 一 个 算法 把 问题 P 的 实例 转化 成 问题 P 
的 具有 相同 答案 的 实例 ， 则 说 Pi 归 约 到 Ps。 可 以 使 用 这 个 证 明 来 证 明 P 芭 少 有 P 那 么 难 。 因 此 ， 
如 果 P 不 是 递归 的 ， 则 P, 不 可 能 是 递归 的 。 如 果 P 是 非 RE， 则 PP 不 可 能 是 RE。 正 如 在 8.1.3 节 中 
提 到 过 的 那样 ， 必 须 小 心 谨慎 地 把 已 知 的 困难 问题 归 约 到 那个 想 要 证 明 至 少 同 样 困 难 的 问题 上 ， 
而 不 是 相反 。 

如 图 9-7 所 示 ， 一 个 归 约 必须 把 P, 具 有 “是 ”回答 的 任何 实例 都 变 成 P, 具 有 “是 ”回答 的 实 
例 ， 必 须 把 PI 具有“ 否 ”回答 的 每 个 实例 都 变 成 P 上 共有 “ 否 ”回答 的 实例 。 注 意 ， 每 个 P 实 例 都 
是 一 个 或 多 个 P 实 例 的 目标 ， 这 并 不 重要 ， 事 实 上 ，P; 只 有 一 小 部 分 才 是 归 约 的 目标 ， 这 是 非 


常常 见 的 。 


P; Pi 


图 9-7 把 肯定 实例 变 成 肯定 实例 且 把 否定 实例 变 成 否定 实例 的 归 约 


形式 化 地 说 ， 从 Pi 到 忆 的 归 约 是 这 样 一 台 图 灵机 ， 这 台 图 灵机 把 写 在 带 上 的 一 个 己 实 例 作为 
输入 ， 停 机 时 在 带 上 有 一 个 P 实 例 。 在 实践 中 ， 一 般 将 描述 归 约 ， 似 乎 这 些 归 约 就 是 把 一 个 P 
实例 作为 输入 ， 产 生 一 个 己 实 例 作为 输出 的 计算 机 程序 。 图 灵机 与 计算 机 程序 的 等 价 性 允许 采 
用 任意 一 种 方式 来 描述 这 个 归 约 。 下 述 定理 强调 了 这 些 归 约 的 重要 性 ， 我 们 将 看 到 这 个 定理 的 
无 数 应 用 。 


lo 
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定理 9.7 如 果 存 在 从 Pi 到 P; 的 归 约 ， 那 么 : 

a) 车 P 是 不 可 判定 的 ， 则 P2 也 是 不 可 判定 的 。 

b) 若 Pi 是 非 RE， 则 Py 也 是 非 RE。 

证 明 ”首先 假设 Pi 是 不 可 判定 的 。 如 果 可 以 判定 Pp， 则 可 以 把 从 Pi 到 P; 的 归 约 与 判定 P 的 算 
法 组 合 起 来 ， 构 造 出 一 个 判定 P 的 算法 。 这 个 思想 如 图 8-7 所 示 。 更 详细 地 说 ， 假 设 给 定 P! 的 一 
个 实例 w。 对 w 使 用 归 约 算法 ， 这 个 算法 把 w 转 化 成 P 的 一 个 实例 x。 然 后 对 x 使 用 对 Ps 所 使 用 的 算 
法 。 如 果 这 个 算法 说 “是 "， 则 x 属于 P:。 因 为 可 以 把 Pi 归 约 到 P;， 所 以 知道 Pl 对 于 w 回 答 
“是 ”， 即 w 属 于 Pi。 同 样 ， 如 果 x 不 属于 己 ， 则 w 不 属于 已 ， 对 于 问题 “x 属 于 已 吗 ? ”所 给 出 的 
任何 回答 ， 也 是 对 “w 属 于 P! 吗 ? ”的 正确 回答 。 

因此 就 与 忆 是 不 可 判定 的 假设 发 生 了 了 矛盾。 结论 是 : 如果 Pi 是 不 可 判定 的 ， 则 Ps 也 是 不 可 判 
定 的 。 

现在 考虑 人 b) 部 分 。 假 设 : Pl 是 非 RE， 而 P: 是 RE。 现 在 ， 有 一 个 算法 把 Pi 归 约 到 P，， 但 是 只 
有 一 个 过 程 来 识别 P2， 也 就 是 说 ， 存 在 一 台 TM， 如 果 这 人 台 图 灵机 的 输入 属于 P2,， 则 说 “是 ”， 
但 如 果 输入 不 属于 P;:， 则 可 能 不 停机 。 如 同 (a) 部 分 那样 ， 从 Pi 的 一 个 实例 w 开 始 ， 用 归 约 算法 把 
w 转 化 成 P, 的 一 个 实例 x*。 然 后 对 x 使 用 P: 的 TM。 如 果 x 被 接受 ， 则 接受 w。 

这 个 过 程 描述 了 一 台 接受 的 语言 是 P 的 TM (可 能 不 停机 )。 如 果 w 属 于 Pl， 则 x 属于 P,， 所 
以 这 个 TM 将 接受 w。 如 果 w 不 属于 Pl， 则 x 不 属于 P,。 此 时 ， 这 个 TM 既 可 能 停机 也 可 能 不 停机 ， 
但 肯定 不 会 接受 w。 因 为 假设 过 不 存在 接受 已 的 TM， 所 以 已 经 用 归 廖 法 证 明了 也 不 存在 接受 疡 
的 TM， 即 如 果 P 是 非 RE， 则 P2 也 是 非 RE。 口 


9.3.2 接受 空 语言 的 图 灵机 


作为 与 图 灵机 有 关 的 归 约 的 一 个 例子 ,研究 两 个 语言 ， 即 所 谓 L.。 和 Le。 每 个 语言 都 由 二 进 
制 串 组 成 。 如 果 w 是 一 个 二 进 制 串 ， 则 在 9.1.2 节 的 枚 举 中 ，w 表 示 某 个 TM Mi。 

如 果 L(M) = 名， 即 Mi 不 接受 任何 输入 ， 则 w 属 于 L.。 因 此 ，L. 是 由 所 有 接受 的 语言 为 空 的 编 
码 过 的 TM 组 成 的 语言 。 另 一 方面 ， 如 果 LM; ) 不 是 空 语言 ， 则 w 属 于 Le。 因 此，Lw 是 由 所 有 至 
少 接受 一 个 输入 的 图 灵机 的 编码 组 成 的 语言 。 

在 下 面 的 讨论 中 ， 认 为 一 个 串 就 是 这 个 串 所 表示 的 图 灵机 ， 这 样 做 是 方便 的 。 因 此 ， 可 以 
把 刚刚 提 到 的 两 个 语言 定义 为 : 

*Le={M\L(M) = Ø} 

* Ine = { MI L(M) # Ø} 
TEM, Le 和 Ln 都 是 二 进 制 字 母 表 {0, 1} 上 的 语言 ， 并 且 是 互补 的 。 下 面 将 要 看 到 ，Ln 是 这 两 个 
语言 中 “ 较 容易 的 ”一 个 ，Lw 是 RE 但 不 是 递归 的 。 另 一 方面 ，L. 是 非 RE。 


定理 9.8 Le 是 递归 可 枚 举 的 。 
证 明 ”只 需 展示 一 个 接受 的 TM。 描 述 一 个 非 确定 型 TM M，M 的 设计 图 如 图 9-8 所 示 ， 这 
是 最 容易 的 。 根 据 定理 8.11， 可 以 把 M 转 化 成 确定 型 TM。 
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猜测 的 w 接受 接受 
U 
M; 
接受 Lv 的 对 


图 9-8 接受 L 的 NTM 的 构造 











M 的 操作 如 下 : 

1.M 把 一 个 TM 编码 Mi 作为 输入 。 

2. 使 用 非 确定 性 能 力 ，M 猜 测 M; 可 能 接受 的 输入 w。 

3. M 检 查 M, 是 否 接受 w。 对 于 这 个 部 分 ，M 可 以 模拟 接受 ,的 通用 TM U, 

4. 如 果 M 接受 w， 则 M 接 受 自身 的 输入 ， 即 Mi。 
通过 这 种 方式 ， 如 果 M 接受 即使 一 个 串 ， 则 也 将 猜 到 这 个 串 (当然 ， 这 个 串 是 在 所 有 猜 到 的 
其 他 串 当中 )， 并 接受 Mi。 但 如 果 LMi)= 名， 则 任何 猜测 w 都 不 能 导致 M1 接受 ， 所 以 MM 不 接受 M;。 
HELM) = Le 口 


下 一 步 是 证 明 : Loe BIA, Patt, FEL. 归 约 到 Le 。 也 就 是 说 ， 将 要 描述 一 个 算法 ， 这 
个 算法 把 输入 (M, w) 变 换 成 输出 M', 即 另 一 个 图 灵机 的 编码 ， 使 得 w 属 于 LM) 当 且 仅 当 LM) 非 空 。 
换 句 话说 ，M 接 受 w 当 且 仅 当 M 至 少 接受 一 个 输入 。 这 个 技巧 就 是 ， 让 M' 忽 略 自身 的 输入 ， 并 且 
在 输入 w 上 模拟 M。 如 果 MM 接 受 ， 则 M' 接 受 自身 的 输入 ， 因 此 MM 接受 w 就 等 于 是 LM1) 非 空 。 假 如 
Lm 是 递归 的 ， 那 么 就 可 能 有 一 个 算法 来 区 分 M 是 否 接受 w， 构造 M' 并 看 看 是 否 LM') =Ø, 


定理 9.9 /不 是 递归 的 。 

证 明 ”将 要 遵循 上 面 给 出 的 证 明 要 点 。 必 须 设计 一 个 算法 ， 这 个 算法 把 一 个 输入 变换 成 一 
个 TM M'， 这 个 输入 是 一 个 二 进 制 编码 有 序 对 (M, w)， 使 得 LMY) 夫 包 当 且 仅 当 M 接 受 输入 w。M' 
的 构造 如 图 9-9 所 示 。 将 要 看 到 ， 如 果 MM 不 接受 w， 则 M' 不 接受 任何 输入 ， 即 LM') =Ø, 但 是 ， 
如 果 M 接 受 w， 则 MM 和 接受 每 个 输入 ， 因 此 LCM5 肯 定 不 是 @。 


w 接受 接受 
=a 
a 
图 9-9 定理 9.9 中 从 (M,w) 构 造 的 TM MYRTLE, MBER FE ete A KENAM Ew 


把 M' 设 计 成 如 下 操作 : 

“MM 忽略 自 身 的 输入 x。 更 进一步 ，M' 把 自身 输入 换 成 表示 TM M 和 输入 串 w 的 那个 囊 。 因 
为 M' 是 为 一 个 具体 的 有 序 对 (M, Ww) 而 设计 的 ， 这 个 有 序 对 具有 某 个 长 度 n; 所 以 可 以 把 M1 
构造 成 具有 状态 序列 qo, q1, …, q,， 其 中 gn 是 初始 状态 。 

( 对 于 i= 0, 1,…,n 一 1， 在 状态 4 中 ，M' 写 下 (M, w) 编 码 的 第 i+ 1 位 ， 进 入 状态 gq,1， 并 
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向 右 移动 。 
(b) 在 状态 g, 中 ，M 向 右 移动 ， 在 必要 时 把 任何 非 空格 都 换 成 空格 (假如 M 的 输入 xk 比 "长 ， 
这 些 非 空格 可 能 是 x 的 结尾 )。 

2. 当 M' 在 q 中 到 达 一 个 空格 时 ，M' 使 用 类 似 的 一 组 状态 来 把 带头 重新 定位 到 带 的 左 端 。 

3. 现在， 利用 另外 的 状态 ，M' 在 当前 带 上 模拟 一 台 通用 TM U. 

4. 如 果 U 接 受 ， 则 M' 接 受 。 如 果 U 永 不 接受 ， 则 MM' 也 永 不 接受 。 

上 述 对 M 的 描述 应 当 足 以 使 读者 相信 ， 可 以 设计 一 台 图 灵机 ， 这 人 台 图 灵机 把 M 的 编码 和 串 w 
变换 成 M' 的 编码 。 也 就 是 说 ， 存 在 一 个 算法 来 完成 从 L, 到 1 的 归 约 。 还 看 到 了 ， 如 果 M 接 受 w， 
则 M' 接 受 原来 在 带 上 的 任何 输入 。 曾 忽略 过 +， 这 个 事实 是 不 相关 的 ，TM 接 受 性 的 定义 说 ， 凡 
是 在 开始 操作 之 前 放 在 带 上 的 东西 ， 就 是 TM 接受 的 东西 。 因 此 ， 如 果 MM 接 受 w， 则 M' 的 编码 属 
Flare 

反之 ， 如 果 MM 不 接受 w， 则 无 论 M' 的 输入 是 什么 ，M' 都 永 不 接受 。 因 此 ， 在 这 种 情况 下 ，M' 
的 编码 不 属于 Lm。 通过 从 M 和 w 构 造 M' 的 这 个 算法 ， 已 经 成 功 地 把 L, 归 约 到 L,， 可 以 得 出 结论 : 
因为 ,不 是 递归 的 ， 所 以 Lo 也 不 是 递归 的 。 这 个 归 约 的 存在 性 足以 完成 本 证 明 。 但 是 ， 为 了 说 
明 这 个 归 约 的 影响 ， 将 要 把 这 个 论证 延伸 一 步 。 假 如 L.. 是 递归 的 ， 那 么 就 可 以 设计 LL, 的 一 个 算 
法 如 下 ; 

1. 如 上 把 (M, w) 转 化 成 TM M'。 

2. 使 用 这 个 假设 中 的 /的 算法 来 区 分 是 否 LM) =D, RAE, WAME Ew, RLM) 

名， 就 说 明 M 的 确 接受 w。 
因为 根据 定理 9.6 可 知 ， 对 于 书 不 存在 这 样 的 算法 ， 所 以 从 是 递归 的 这 个 假设 已 经 得 出 了 矛盾 ， 
结论 是 : Ze 不 是 递归 的 。 口 


现在 ， 知 道 了 L. 的 状况 。 假 如 L. 是 RE， 则 根据 定理 9.4，L。 和 都 应 当 是 递归 的 。 根 据 定理 
99，Lw 不 是 递归 的 ， 所 以 结论 是 : 


定理 9.10 人 .不 是 RE。 口 
9.3.3 莱 斯 定理 与 递归 可 枚 举 语言 的 性 质 


MRL. 和。 这 样 的 语言 是 不 可 判定 的 ， 这 个 事实 其 实 是 一 个 较 一 般 定 理 的 一 个 转 例 ; RE 语言 
的 所 有 非 平 几 性 质 都 是 不 可 判定 的 ， 在 这 样 的 意义 下 ， 一 台 图 灵机 不 可 能 识别 下 面 这 样 的 二 进 
制 串 ， 这 些 二 进 制 串 是 一 些 其 语言 具有 这 种 非 平 凡 的 性 质 的 TM 的 编码 。RE 语 言 性 质 的 一 个 例 
子 是 :“ 这 个 语言 是 上 下 文 无 关 的 "。 作 为 这 个 一 般 原 理 (RE 语言 的 所 有 非 平凡 性 质 都 是 不 可 判 
定 的 ) 的 一 个 特例 ， 给 定 的 TM 是 否 接受 一 个 上 下 文 无 关 语 言 是 不 可 判定 的 。 

RE 语言 的 一 个 性 质 只 不 过 是 RE 语言 的 一 个 集合 。 因 此 ， 是 上 下 文 无 关 的 这 个 性 质 在 形式 化 
上 就 是 所 有 CFL 的 集合 。 是 空 的 这 个 性 质 就 是 只 由 空 语言 组 成 的 集合 {@}。 

如 果 一 个 性 质 是 空 的 ( 即 根本 没有 语言 满足 这 个 性 质 ) 或 者 这 个 性 质 是 所 有 的 RE 语言 ， 则 
说 这 个 性 质 是 平凡 的 。 否 则 ， 这 个 性 质 是 非 平 几 的 。 
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TER, SHER (2) 与 这 个 性 质 是 一 个 空 语言 ({O}) 是 不 同 的 。 


不 能 认为 语言 的 一 个 集合 就 是 这 些 语言 本 身 。 原 因 在 于 ， 典 型 的 语言 (是 无 穷 的 ) 不 能 写 
成 一 个 有 穷 长 度 的 可 以 作为 TM 的 输入 的 串 。 更 恰当 的 说 法 是 ， 必 须 识别 接受 这 些 语言 的 图 灵 
机 ， 即 使 一 个 TM 接受 的 语言 是 无 穷 的 ， 这 个 TM 编码 本 身 也 是 有 穷 的 。 因 此 ， 如 果 P 是 RE 语言 
的 一 个 性 质 ， 则 语言 Ls 就 是 图 灵机 Mi 的 编码 的 集合 ， 使 得 LMi) 是 2 中 的 语言 。 当 谈 到 一 个 性 质 
2 的 可 判定 性 时 ， 意 思 就 是 语言 Lz 的 可 判定 性 。 





为 什么 问题 与 其 补 不 同 ? 


直觉 告诉 我 们 : 一 个 问题 与 这 个 问题 的 补 其 实 是 同样 的 问题 。 为 了 解答 其 中 一 个 ， 可 
以 使 用 另 一 个 的 算法 ， 在 最 后 一 步 把 输出 取 补 :“ 是 ”代替 “ 否 "， 反 之 亦 然 。 只 要 这 个 问 
题 与 其 补 都 是 递归 的 ， 这 种 本 能 就 完 完全 全 是 正确 的 。 

但 是 ， 正 如 在 9.2.2 节 中 讨论 过 的 那样 ， 存 在 另外 两 种 可 能 性 。 首 先 ， 这 个 问题 与 其 补 
甚至 都 不 是 RE。 于 是 ， 任 何 种 类 的 TM 都 根本 不 能 解答 这 二 者 ， 所 以 在 某 种 意义 上 ， 这 二 
者 又 是 相似 的 。 但 是 ， 有 趣 的 情况 (以 Ke 和 为 典型 ) 是 当 一 个 是 RE 而 另 一 个 是 非 RE 时 。 

对 于 是 RE 的 这 个 语言 ， 可 以 设计 一 台 TM M， 这 个 TM 获得 输入 w 并 找 出 w 属 于 语言 的 
原因 。 因 此 ， 对 于 Le ， 给 定 一 台 TM M 作 为 输入 ， 让 设计 的 TM 寻找 TM M 接 受 的 串 ， 一旦 
找到 一 个 ， 就 接受 M。 如 果 M 是 一 台 接受 空 语言 的 TM， 那 么 虽然 永远 不 能 肯定 地 知道 M 不 
属于 Le ， 但 是 永 不 接受 M， 这 正 是 这 台 TM 的 正确 反应 。 

另 一 方面 ， 对 于 补 问题 [.，L. 不 是 RE， 甚 至 没有 办 法 接受 Ze 的 所 有 串 。 假 设 给 定 一 个 
串 M，M 是 一 台 语 言 为 空 的 TM。 可 以 检验 TM M 的 输入 ， 尽 管 也 许 永远 找 不 到 M 接 受 的 输 
入 ， 但 是 永远 也 不 能 肯定 不 存在 某 个 尚未 检验 的 、 这 个 TM 接受 的 输入 。 因 此 ， 即 使 应 当 “ 
接受 M， 也 可 能 永 不 接受 M。 











定理 9.11 (MEM) RE 语言 的 每 个 非 平 几 性 质 都 是 不 可 判定 的 。 

证 明 设 ? 是 RE 语言 的 一 个 非 平凡 性 质 。 首 先 假设 ， 儿 ( 空 语言 ) 不 属于 P， 以 后 将 回来 讨论 
相反 的 情形 。 因 为 2 是 非 平凡 的 ， 所 以 一 定 存在 某 个 非 空 语言 属于 P。 设 Mi 是 一 个 接受 L 的 TM。 

HCL, 归 约 到 Lr， 因此 证 明 Lz 是 不 可 判定 的 ， 因 为 L, 是 不 可 判定 的 。 执 行 归 约 的 这 个 算 
法 用 一 个 有 序 对 (M, w) 作 为 输入 ， 产 生 一 个 TM M'。M 的 设计 如 图 9-10 所 示 * 如 果 MM 不 接受 w， 
WLM VED, 如果 M 接 受 w， 则 LM') = 工 。 














图 9-10 莱 斯 定理 的 证 明 中 M 的 构造 
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M' 是 一 个 双 带 TM。 一 条 带 用 来 在 w 上 模拟 M。 记 住 ， 执 行 归 约 的 这 个 算法 被 给 定 M 和 w 作 为 
输入 ， 并 且 在 设计 M' 的 转移 时 可 以 使 用 这 个 输入 。 因 此 ， 把 在 vw 上 模拟 M 的 任务 “固化 到 ”M' 
中 ，M 不 必 在 自身 的 带 上 去 读 M 的 转移 。 

必要 时 ， 用 M' 的 另 一 个 带 在 输入 x 上 模拟 M。 同 样 ，Mi 的 转移 为 这 个 归 约 算法 所 知 ， 并 可 
“固化 到 ”M' 的 转移 中 。 构 造 TM M 来 完成 如 下 操作 : 

1. 在 输入 上 模拟 M。 注 意 ，w 不 是 M' 的 输入 ， 事 实 上 ， 如 在 定理 9.8 证 明 中 那样 ，M' 在 一 条 

带 上 写 下 M 和 w， 并 在 这 个 有 序 对 上 模拟 通用 TM U, 
2. 如 果 M 不 接受 w， 则 M' 停 止 操作 。M' 永 不 接受 自身 输入 ， 所 以 L(M') =D, AHRI 
属于 性 质 P， 所 以 这 就 意味 着 M 的 编码 不 属于 7。 
3. 如果 M 接 受 w， 则 M' 开 始 在 自身 输入 x 上 模拟 M.。 因 此 ，M 将 恰好 接受 语言 L。 因 为 L 属 于 
P， 所 以 M' 的 编码 属于 Lz。 
读者 应 当 注 意 到 了 ， 从 M 和 w 来 构造 M' 可 以 用 一 个 算法 来 实现 。 因 为 这 个 算法 把 (M,w) 转 变 成 M'， 
使 得 M' 属 于 Lz 当 且 仅 当 (M, w) 属 于 L,， 所 以 这 个 算法 是 从 LL 到 Lz 的 一 个 归 约 ， 而且 证 明 性 质 2 是 
不 可 判定 的 。 

还 没有 大 功 告 成 。 需 要 考虑 属于 P 的 情形 。 如 果 这 样 ， 就 考虑 补 性 质 (不 具有 性 质 2 的 
RE 语言 的 集合 ) 。 根 据 前 述 证 明 ，P 是 不 可 判定 的 。 但 是 ， 每 个 TM 都 接受 RE 语言 ， 所 以 五 等 于 
Li, 开 是 不 接受 ?中 语言 的 图 灵机 (的 编码 ) 的 集合 ， 瞩 是 接受 中 语言 的 图 灵机 的 集合 。 假 设 
[是 可 判定 的 。 于 是 ;也 应 当 是 可 判定 的 ， 因 为 递归 语言 的 补 是 递归 的 (定理 9.3)。 o 


93.4 与 图 灵机 说 明 有 关 的 问题 


根据 定理 9.11， 所 有 只 涉及 TM 接受 的 语言 的 与 TM 有 关 的 问题 都 是 不 可 判定 的 。 这 些 问题 中 
的 有 些 问题 本 身 就 是 有 趣 的 。 例 如 ， 下 列 问 题 都 是 不 可 判定 的 : 

1. 一 台 TM 接 受 的 语言 是 否 空 (从 定理 9.9 和 定理 9.3 了 解 了 这 个 问题 )。 

2. 一 台 TM 接 受 的 语言 是 否 有 穷 。 

3. 一 台 TM 接 受 的 语言 是 否 是 正则 语言 。 

4. 一 台 TM 接 受 的 语言 是 否 是 上 下 文 无 关 语言 。 

但 是 ， 莱 斯 定理 并 没有 蕴涵 与 一 台 TM 有 关 的 每 个 问题 都 是 不 可 判定 的 。 例 如 ， 询 问 这 台 
TM 的 状态 ， 而 不 询问 这 台 TM 接 受 的 语言 ， 这 样 的 问题 就 可 能 是 可 判定 的 ; 


例 9.12 ”一 台 TM 是 否 具有 5 个 状态 是 可 判定 的 。 判 定 这 个 问题 的 算法 仅仅 查看 这 人 台 TM 的 纺 
码 ， 并 计数 在 任何 转移 中 出 现 的 状态 的 数量 。 

另 一 个 例子 是 ， 是 否 存在 某 个 输入 ， 使 得 这 人 台 TM 至 少 移动 5 步 ， 这 是 可 判定 的 。 当 回忆 起 ， 
如 果 一 台 TM 移 动 了 5 步 ， 则 这 台 TM 只 能 看 到 围绕 初始 带头 位 置 的 9 个 带 单元 时 ， 这 个 算法 就 是 
显然 的 。 因 此 ， 可 以 在 任意 有 穷 多 条 带 上 把 这 台 TM 模 拟 5 步 ， 这 些 带 由 5 个 或 少 于 5 个 带 符号 组 
成 ， 前 后 都 是 空格 。 如 果 这 些 模拟 中 任何 一 个 模拟 没有 到 达 停机 状态 ， 那 么 结论 是 : 这 台 TM 在 
某 个 输入 上 至 少 移动 5 步 。 a 
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93.5 习题 


* 习题 9.3.1 证 明 ; 接受 所 有 是 回 文 的 输入 (可 能 还 有 某 些 其 他 的 输入 ) 的 TM 的 图 灵机 编码 
的 集合 是 不 可 判定 的 。 
习题 9.3.2 毕 格 计算 机 公司 决定 , 通过 制造 一 种 高 技术 版 本 图 灵机 (这 种 图 灵机 称 为 BWTM ， 
装备 有 铃 和 哨 ) 来 挽救 公司 下 请 的 市 场 份额 。BWTM 基 本 上 与 普通 的 图 灵机 是 一 样 的 ， 不 同 之 处 
在 于 ， 这 种 机 器 的 每 个 状态 都 标记 成 要 么 “ 铃 状 态 ”要 么 “ 哨 状 态 ”。 每 当 BWTM 进 入 一 个 新 状 
态 时 ， 就 根据 刚 进入 的 状态 的 类 型 来 打 铃 或 者 吹 哨 。 证 明 ， 一 台 给 定 的 BWTM M 在 给 定 的 输入 w 
上 是 否 曾经 吹 哨 ， 这 是 不 可 判定 的 。 
习题 9.3.3 WEH: 下 面 这 样 的 TM M 的 编码 的 语言 是 不 可 判定 的 ， 当 M 从 空白 带 开始 时 ， 最 
终 在 带 上 某 处 写 下 1。 
! 习题 9.3.4 根据 莱 斯 定理 可 知 下 列 问 题 都 是 不 可 判定 的 。 但 是 ， 这 些 问题 是 递归 可 枚 举 的 还 
是 非 RE? 
a) LU) 含有 至 少 两 个 串 吗 ? 
b) UM) 是 有 穷 的 吗 ? 
c) LUM) 是 上 下 文 无 关 语言 吗 ? 
* d) L(M) = (L(M))* W? 
! 习题 9.3.5 ” 设 L 是 由 一 对 TM 的 编码 加 一 个 整数 ( 即 (M1, Ma, 月) 组 成 的 语言 ， 使 得 LM1) N 
LUM) 包含 至 少 k 个 串 。 证 明 : Z 是 RE 但 不 是 递归 的 。 
习题 9.3.6 证 明 下 列 问题 都 是 可 判定 的 : 
* a) 使 得 当 M 从 空白 带 开始 时 ，M 最 终 在 带 上 写 下 某 个 非 空 格 符号 的 TM _M 的 编码 的 集合 。 提 
T: 如 果 MH 有 m 个 状态 ， 则 考虑 M 的 前 m 个 转移 。 
1b) 永 不 向 左 移动 的 TM 的 编码 的 集合 。 
1o) 使 得 从 输入 w 开 始 ，TM M 永 不 扫描 任何 带 单元 超过 一 次 的 有 序 对 (M,w) 的 集合 。 
! 习 题 9.3.7 证 明 下 列 问题 都 不 是 递归 可 枚 举 的 : 
*a) 使 得 TM M 从 输入 w 开 始 不 停机 的 有 序 对 (M, w) 的 集合 。 
b) 使 得 KM N L(Mz) = DHIR FEIM, M;) 的 集合 。 
9) 使 得 COMD = L(M2)L(Ms) ( 即 第 一 个 TM 的 语言 是 另外 两 个 TM 的 语言 的 连接 ) 的 有 序 对 
(Mi, Ma, M3) 的 集合 。 
由 习题 9.3.8 说 出 下 列 每 个 语言 是 否 递归 的 、RE 但 不 是 递归 的 或 者 非 RE。 
*a) 所 有 在 每 个 输入 上 都 停机 的 TM 的 TM 编码 的 集合 。 
b) 所 有 在 所 有 输入 上 都 不 停机 的 TM 的 TM 编码 的 集合 。 
中 所 有 在 至 少 一 个 输入 上 停机 的 TM 的 TM 编码 的 集合 。 
* d) 所 有 在 至 少 一 个 输入 上 不 停机 这 样 的 TM 的 TM 编码 的 集合 。 


9.4 波斯 特 对 应 问题 
在 本 节 ， 开 始 把 与 图 灵机 有 关 的 不 可 判定 问题 归 约 到 与 “真实 ”事物 有 关 的 不 可 判定 问题 
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上 ， 即 归 约 到 与 图 灵机 这 种 抽象 物 没 有 关系 的 普通 事物 上 。 从 所 谓 “ 波 斯 特 对 应 问题 ”(PCP) 

开始 ， 虽 然 这 个 问题 依然 抽象 ， 但 是 这 个 问题 涉及 字符 串 而 不 涉及 图 灵机 。 目 标 是 ， 证 明 这 个 

与 串 有 关 的 问题 是 不 可 判定 的 ， 然 后 通过 把 PCP 归 约 到 

其 他 问题 上 ， 利 用 这 个 问题 的 不 可 判定 性 ， 来 证 明 其 他 oT nace I | POP 

问题 不 可 判定 。 
我 们 要 通过 把 归 约 到 PCP 上 来 证 明 PCP 不 可 判定 。 ， F941 证 明 波斯 特 对 应 问题 的 

为 了 便于 证 明 ， 介 绍 一 种 “修改 过 的 ”PCP， 把 这 个 修 人 

改过 的 问题 归 约 到 原来 的 PCP 上 。 然 后 ， 把 /。 归 约 到 这 个 修改 过 的 PCP 上 。 这 个 归 约 链 如 图 9-11 

所 示 。 因 为 已 知 原来 的 L, 是 不 可 判定 的 ， 所 以 结论 是 PCP 是 不 可 判定 的 。 


9.4.1 波斯 特 对 应 问题 的 定义 


波斯 特 对 应 问题 (PCP) 的 一 个 实例 由 某 个 字母 表 上 串 的 两 个 表 组 成 ， 这 两 个 表 一 定 长 
度 相等 。 一 般 称 为 4 表 和 B 表 ， 并 且 对 于 某 个 整数 :， 写 成 4 = wi, wz,…, we AB = xi, X2, Xto X 
于 每 个 i， 把 有 序 对 (wi, x) 称 为 对 应 对 。 




















如 果 存 在 一 个 或 多 个 整数 的 序列 i, fay …, 加 ， 当 把 这 个 序列 解释 成 4 表 和 8 表 中 串 的 下 标 时 产 
生 相 同 的 串 ， 则 说 PCP 问 题 的 这 个 实例 有 解 。 也 就 是 说 ，wiwa … Wig = mxa … xiu。 如 果 这 样 ， 
就 说 这 个 序列 ha, fay …, 加 是 这 个 PCP 实 例 的 一 个 解 。 波 斯 特 对 应 问题 是 : 


“给 定 一 个 PCP 实 例 ， 说 出 这 个 实例 是 否 有 解 。 


例 9.13 设 王 = {0, 1}， 设 4 表 和 B 表 如 图 9-12 所 定义 。 在 这 种 情形 下 PCP 有 解 。 例 如 ， 设 m = 
4, i=2, h=1, h=1, ia=3 即 这 个 解 是 表 2,1,1,3。 通 过 按照 两 个 表 的 顺序 把 对 应 串 连 接 起 
来 ， 可 以 验证 这 个 表 是 一 个 解 。 也 就 是 说 ，wawiwiws = xxnx = 101111110。 注 意 ， 这 个 解 不 是 
惟一 的 。 例 如 ，2, 1, 1,3,2, 1,1,3 是 另 一 个 解 。 口 


例 9.14 下面 是 无 解 的 一 个 例子 。 同 样 设 2 = {0, 1}， 但 是 现在 这 个 实例 是 图 9-13 中 给 出 的 两 
个 表 。 
假设 图 9-13 中 的 PCP 实 例 有 解 (LEA BA, i …, 加， 对 于 某 个 四 > 1)。 断 言 : i = 1。 因 为 如 
果 i = 2， 则 以 wa = 011 开 头 的 串 就 不 得 不 等 于 以 m = 11 开 头 的 串 。 但 是 这 样 的 相等 是 不 可 能 的 ， 
因为 这 两 个 串 的 第 一 个 符号 分 别 是 0 和 1。 同 样 ， 不 可 能 = 3， 因 为 这 样 二 来 ， 以 ws = 101 开 头 的 
串 就 必须 等 于 以 zs = 011 开 头 的 串 。 





图 9-12 一 个 PCP 实 例 图 9-13 另 一 个 PCP 实 例 
如 果 ii = 1， 则 从 表 4 和 表 B 得 出 的 两 个 对 应 串 就 不 得 不 这 样 开 头 ; 
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A; 10… 
B; 101--- 


现在 看 看 :可 能 是 什么 。 
1. 如 果 疡 = 1， 则 有 问题 ， 因 为 以 ww = 1010 开 头 的 串 不 能 匹配 以 zx = 101101 开 头 的 串 ， 这 
两 个 串 在 第 四 个 位 置 上 一 定 不 同 。 
2. 如果 = 2， 同 样 有 问题 ， 因 为 以 www> = 10011 开 头 的 串 不 能 匹配 以 zxz = 10111 开 头 的 申 ， 
这 两 个 串 在 第 三 个 位 置 上 一 定 不 同 。 


3. 只 有 P = 3 是 可 能 的 。 
如 果 选 择 = 3， 则 从 整数 表 i, 所 形成 的 对 应 串 是 : 
A; 10101… 
B; 101011… 


关于 这 些 串 ， 没 有 理由 立即 说 明 不 能 把 表 1, 3 扩展 为 解 。 但 是 ， 可 以 论证 不 可 能 这 样 做 。 原 因 在 
于 ， 现 在 是 处 在 与 选择 h = 1 之 后 的 同样 条 件 下 。 从 8 表 得 出 的 这 个 种， 与 从 4 表 得 出 的 这 个 串 相 
等 ， 除 了 在 8 表 中 在 结尾 有 一 个 多 余 的 1 之 外 。 因 此 ， 被 迫 选择 3 = 3，is = 3， 依 此 类 推 ， 以 避免 
产生 不 匹配 。 永 远 不 能 让 4 串 赶 上 8 串 ， 因 此 永远 不 能 形成 一 个 解 。 o 





PCP 作 为 语言 


因为 正在 讨论 判定 一 个 给 定 的 PCP 实 例 是 否 有 解 这 个 问题 ， 所 以 需要 把 这 个 问题 表述 
成 一 个 语言 。 由 于 PCP 允 许 实例 具有 任意 字母 表 ， 所 以 这 个 语言 PCP 其 实 是 某 个 固定 字母 
表 上 的 串 的 集合 ， 这 些 串 编码 那些 PCP 实 例 ， 非 常 像 是 在 9.1.2 节 中 编码 那些 具有 任意 的 状 
态 集合 和 带 符 号 集合 的 图 灵机 。 例 如 ， 如 果 一 个 PCP 实 例 具 有 不 超过 2 个 符号 的 字母 表 ， 
则 可 以 用 不 同 的 k 位 二 进 制 编码 来 表示 每 种 符号 。 

因为 每 个 PCP 实 例 都 具有 有 穷 字 母 表 ， 所 以 可 以 为 每 个 实例 找到 某 个 k。 于 是 可 以 在 一 
个 3 个 符号 的 字母 表 中 编码 所 有 这 些 实例 ， 这 个 字母 表 由 0、1 和 分 隔 串 的 “逗号 ”符号 组 
成 。 编 码 开头 是 用 二 进 制 写 下 的 k， 接 着 写 下 逗号 。 然 后 写 下 每 一 对 串 ， 用 逗号 分 隔 这 些 串 ， 
用 k 位 二 进 制 编码 来 编码 这 些 串 的 符号 。 











9.4.2 “修改 过 的 ”PCP 


如 果 首 先 介绍 一 个 中 间 版 本 的 PCP， 即 所 谓 的 修改 过 的 波斯 特 对 应 问题 ( 即 MPCP)， 则 更 
容易 把 六 归 约 到 PCP。 在 这 个 修改 过 的 PCP 中 ， 对 解 有 附加 的 要 求 : A 表 和 B 表 上 第 一 个 有 序 对 
必须 是 解 当 中 的 第 一 个 有 序 对 。 更 形式 化 地 说 ， 一 个 MPCP 实 例 是 两 个 表 4 = Wi, wa, …, we 和 B = 
mi， 一 个 解 是 零 个 或 多 个 整数 的 表 ii, 忆 ，…,i， 使 得 

WiWi Wig Win EXN Kin 


注意 ， 即 使 在 解 表 的 前 面 没有 提 到 下 标 1， 也 强迫 有 序 对 (wi, zx) 在 这 两 个 串 的 开头 。 另 外 ， 
与 PCP 不 同 PCP 解 在 这 个 解 表 上 至 少 有 一 个 整数 )， 在 MPCP 中 ， 如 果 wi = x， 则 空 表 可 以 是 一 
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个 解 (但 是 这 些 实例 没有 什么 意思 ， 将 不 会 出 现在 对 MPCP 的 使 用 中 )。 





部 分 解 
在 例 9.14 中 ， 使 用 了 一 种 分 析 PCP 实 例 的 技术 ， 这 种 技术 经 常 出 现 。 考 虑 可 能 的 部 分 
解 是 什么 ， 也 就 是 说 ， 下 标 ii, i, LFA, Eww w, 和 xixa w, 中 一 个 是 另 一 个 


的 前 缀 ， 尽 管 这 两 个 串 并 不 相等 。 注 意 ， 如 果 某 个 整数 序列 是 一 个 解 ， 则 这 个 序列 的 每 个 
前 缀 就 一 定 是 一 个 部 分 解 。 因 此 ， 理 解 了 什么 是 部 分 解 ， 就 可 以 论证 可 能 有 什么 解 。 

但 是 注意 ， 因 为 PCP 是 不 可 判定 的 ， 所 以 没有 算法 来 计算 所 有 的 部 分 解 。 可 能 存在 有 
无 穷 多 个 部 分 解 ， 更 糟糕 的 是 ， 关 于 串 wiw… wi 和 ix … 为 的 长 度 可 以 相差 多 少 这 方面 
没有 任何 上 界 ， 即 使 这 个 部 分 解 导致 一 个 解 。 











例 9.15 ”可 以 认为 ， 图 9-12 中 的 表 是 一 个 MPCP 实 例 。 但 是 ， 作 为 一 个 MPCP 实 例 ， 这 个 表 
却 无 解 。 在 证 明 中 ， 注 意 ， 任 何 部 分 解 一 定 以 下 标 1 开 头 ， 所 以 一 个 解 的 两 个 串 可 以 这 样 开始 : 
Age A 
B; 111. 


下 一 个 整数 不 可 能 是 2 或 3， 因 为 wz 和 ws 都 以 10 开 头 ， 所 以 可 能 在 第 三 个 位 置 上 产生 不 匹配 。 
此 ， 下 一 个 下 标 只 可 能 是 1， 结 果 是 : 

A: 11… 

B; 111111… 


可 以 这 样 不 停 地 论证 下 去 。 只 有 解 当中 的 另 一 个 1 才能 避免 不 匹配 ， 但 是 如 果 只 能 选择 下 标 1 ， 
则 B8 趾 始终 是 4 串 的 三 倍 长 度 ， 这 两 个 串 永远 不 能 变 得 相等 。 o 


证 明 PCP 是 不 可 判定 的 ， 其 中 一 个 重要 步骤 是 ， 把 MPCP 归 约 到 PCP。 稍 后 ， 通 过 把 尺 归 约 
到 MPCP 来 证 明 MPCP 是 不 可 判定 的 。 到 那 时 ， 将 要 获得 PCP 也 是 不 可 判定 的 一 个 证 明 ， 假 如 
PCP 是 可 判定 的 ， 则 应 当 可 以 判定 MPCP， 因 此 应 当 可 以 判定 L。 

给 定 带 有 字母 表 的 一 个 MPCP 实 例 ， 构 造 一 个 PCP 实 例如 下 。 首 先 ， 引 入 一 个 新 符号 *， 
在 这 个 PCP 实 例 中 ， 这 个 符号 出 现在 MPCP 实 例 的 串 中 的 每 个 符号 之 间 。 但 是 ， 在 4 表 的 这 些 申 
中 , * 跟 在 的 符号 后 面 ， 而 在 8 表 中 ，* 跟 在 2 的 符号 前 面 。 一 个 例外 是 一 个 新 有 序 对 ， 这 个 
有 序 对 是 基于 MPCP 实 例 的 第 一 个 有 序 对 ， 这 个 有 序 对 在 wi 开头 有 一 个 额外 的 *， 所 以 这 个 * 可 
用 来 开始 这 个 PCP 解 。 把 一 个 终止 有 序 对 ($, *$) 加 入 这 个 PCP 实 例 。 这 个 有 序 对 作为 一 个 PCP 解 
当中 的 最 后 一 项 ， 这 个 PCP 解 模拟 这 个 MPCP 实 例 的 一 个 解 。 

现在 把 上 述 构造 形式 化 。 给 定 一 个 具有 表 4 = wi, Wr, …, wi 和 表 B = x1, X2, +22 PIMPCPSCGI, 
假设 * 和 3 是 不 在 这 个 MPCP 实 例 的 字母 表 中 出 现 的 符号 。 构 造 一 个 PCP 实 例 C= yo, Yay, Yer 
FID = 20, 21, °°, Zee ROP: 

1. 对 于 i = 1, 2, …,k， 设 ”是 在 w 每 个 符号 后 加 入 + 之 后 的 w， 设 = 是 在 xi 每 个 符号 前 加 入 * 之 

后 的 x。 
2.=*D 且 zm=zi。 也 就 是 说 ， 第 0 个 有 序 对 类 似 于 有 序 对 1, 除了 在 来 自 第 一 个 表 的 串 的 开 
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头 有 一 个 额外 的 * 之 外 。 注 意 ;， 第 0 个 有 序 对 将 是 这 个 PCP 实 例 中 惟一 一 个 有 序 对 ， 这 个 
有 序 对 中 两 个 串 以 相同 符号 开头 ， 所 以 这 个 PCP 实 例 的 任 
何 一 个 解 都 必须 从 下 标 0 开始 。 

3. yee = SHu =* S$, 

例 9.16 假设 图 9-12 是 一 个 MPCP 实 例 。 则 上 述 步骤 所 构造 的 








]*0*1#+1*#]1*+ 






PCP 实 例如 图 9-14 所 示 。 Frig e g 
* 

定理 9.17 MPCP 归 约 到 PCP。 图 9-14 从 一 个 MPCP 实 例 构 
证 明 上 面 给 出 的 构造 是 这 个 证 明 的 核心 。 首 先 ， 假 设 ii,,…， 造 一 个 PCP 实 例 


加 是 具有 表 A 和 表 8 的 这 个 给 定 的 MPCP 实 例 的 解 。 于 是 知道 wwaw… Wig EXX xm。 假如 把 
这 些 w 换 成 y 并 把 x 换 成 z， 则 应 当 有 两 个 几乎 相同 的 串 ， yY ,和 zza… zu。 差别 在 于 ， 第 
一 个 串 可 能 在 开头 少 一 个 *， 而 第 二 个 串 可 能 在 结尾 少 一 个 *。 也 就 是 说 ， 

ID io 三 ZNZD *** Zig 

但 是 ，y = * ? 且 zo = zi， 所 以 通过 把 第 一 个 下 标 换 成 0， 就 可 以 处 理 好 开头 这 个 *。 于 是 就 
A: 

YY Vig” Vig = OZ Zig" Zi 
通过 增加 下 标 k + 1， 就 能 处 理 好 最 后 这 个 *。 因 为 ,=$ 目 zs:=*$， 所 以 有 
YOY Vig Yim Yb 1 = Wh Zon Zkt 
WEEZE TO, ii, iz, …, im k+ 1 是 这 个 PCP 实 例 的 一 个 解 。 

现在 ， 必 须 证 明 相反 的 方向 ， 即 如 果 构造 的 这 个 PCP 实 例 有 一 个 解 ， 则 原来 这 个 MPCP 实 例 
也 有 一 个 解 。 注 意 ， 这 个 PCP 实 例 的 一 个 解 ， 必 须 以 下 标 0 开头 并 且 以 下 标 k + 1 结尾 ， 因 为 只 有 
第 0 个 有 序 对 的 串 yw 和 zo 才 以 相同 符号 开头 ， 并 且 只 有 第 上 + 1 个 有 序 对 的 串 才 以 相同 符号 结尾 。 
因此 ， 这 个 PCP 解 可 以 写成 0, 和 各， 大 十 1。 

BÈ: di ins ,各 是 MPCP 实 例 的 解 。 原 因 在 于 ， 如 果 从 串 )o5 + Vig ves PRRI 
$, WER Ew wwa … Wigs 而且， 如 果 从 串 zziza … zsi 中 删除 * 和 S$， 则 得 到 zxixa ++ Xino 
已 知 

WV Veg? Vig Ve 1 = Ohh Zig Zk + 1 
所 以 得 出 
MAW Wi” Wig= XX Xin Ki 
因此 ， 这 个 PCP 实 例 的 一 个 解 蕴涵 着 这 个 MPCP 实 例 的 一 个 解 。 

现在 看 到 ， 在 这 个 定理 之 前 描述 的 这 个 构造 是 一 个 算法 ， 这 个 算法 把 MPCP 的 一 个 有 解 实例 转 
化 成 PCP 的 一 个 有 解 实例 ， 并 且 把 MPCP 的 一 个 无 解 实例 转化 成 PCP 的 一 个 无 解 实例 。 因 此 ， 存 在 
着 从 MPCP 到 PCP 的 一 个 归 约 ， 这 个 归 约 证 实 : 如 果 PCP 是 可 判定 的 ， 则 MPCP 也 是 可 判定 的 。 0 


9.4.3 PCP 不 可 判定 性 证 明之 完成 
现在 通过 把 L 归 约 到 MPCP 来 完成 图 9-11 中 的 归 约 链 。 也 就 是 说 ， 给 定 一 个 有 序 对 (M, w), 
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构造 一 个 MPCP 实 例 (4, B), (ETM M 接 受 输入 w 当 且 仅 当 (4, B) 有 解 。 

本 质 思想 是 : 在 部 分 解 中 ，MPCP 实 例 (4, B) 模 拟 M 在 上 的 计算 。 也 就 是 说 ， 这 些 部 分 解 将 
由 下 面 这 样 的 串 组 成 : 这 些 串 是 W 的 ID 序列 的 前 缀 #au#ao#as#…，am 是 M 在 输入 w 上 的 初始 ID， 
并 且 对 于 所 有 i，as Ha+i。 来 自 B 表 的 这 个 串 将 总 是 比 来 自 4 表 的 这 个 串 提前 一 个 ID， 除 非 M 进 
人 接受 状态 。 在 那 种 情况 下 ， 将 存在 一 些 有 序 对 可 供 使 用 ， 这 些 有 序 对 允许 4 表 “ 赶 上 ”8 表 并 
最 终 产 生 一 个 解 。 但 是 ， 如 果 不 进入 接受 状态 ， 就 没有 办 法 使 用 这 些 有 序 对 ， 就 不 存在 任何 解 。 

为 了 简化 对 一 个 MPCP 实 例 的 构造 ， 将 要 引用 定理 8.12， 这 个 定理 提出 ， 可 以 假设 TM 永 不 
显示 空格 ， 并 且 永 不 从 初始 带头 位 置 向 左 移 动 。 在 那 种 情况 下 ， 图 灵机 的 一 个 ID 将 总 是 形 如 aq 
的 一 个 串 ，c 和 是非 空格 带 符号 的 串 ，4 是 状态 。 但 是 ， 如 果 这 个 带头 是 在 右边 紧 接 着 的 空格 
上 ， 则 允许 为 空 ， 而 不 在 状态 右边 写 一 个 空格 。 因 此 ，a 和 的 符号 将 恰好 对 应 着 一 些 单元 的 内 
容 ， 这 些 单元 是 包含 输入 的 单元 ， 以 及 这 些 单元 右边 的 带头 先前 已 经 访问 过 的 任何 单元 。 

WM =(Q, 2,1, ô, qo, B, 甩 是 满足 定理 8.12 的 一 台 TM， 设 w 属 于 工 是 一 个 输入 串 。 构 造 一 个 
MPCP 实 例如 下 。 为 了 理解 选择 这 些 有 序 对 背后 的 动机 ， 要 记 住 ， 目 标 是 让 第 一 个 表 比 第 二 个 表 
落后 一 个 ID， 除 非 M 接 受 。 

1. 第 一 个 有 序 对 是 

RA KB 
# oo 
这 个 有 序 对 开始 了 在 输入 w 上 模拟 M， 根 据 MPCP 的 规则 ， 任 何 解 都 必须 以 这 个 有 序 对 开 
头 。 注 意 ， 在 开始 时 ，B 表 要 比 4 表 提 前 一 个 完整 的 ID。 
2. 可 以 把 带 符号 和 分 隔 符 # 加 入 这 两 个 表 。 有 序 对 
RA RB 
x X “(对 于 T 中 每 个 X) 
kd * 
允许 “复制 ”不 涉及 状态 的 符号 。 实 际 上 ， 选 择 这 些 串 就 允许 扩展 A 串 来 匹配 8 串 ， 同 时 把 
前 一 个 ID 的 各 部 分 复制 到 B 串 结尾 。 这 样 做 ， 帮 助 在 B8 串 结尾 形成 M 移 动 序列 中 的 下 一 个 ID。 
3. 为 了 模拟 M 的 一 步 移动 ， 有 一 些 特定 的 有 序 对 ， 这 些 有 序 对 反映 这 些 移动 。 对 于 所 有 OQ 一 
F 中 的 g ( 即 q 是 非 接 受 状态 )、Q 中 的 p 以 及 中 的 X,Y,Z 有 


X H MRKG, X) = (p. Y, R) 

ZX pZzY 如 果 59g, X) =(P, Y.L), ZEER 

qt Yp 0K, B) = (p, Y, R) 

Zqt pzy# 如 果 5g,B)= (p,Y,L)，Z 是 任意 带 符号 
类 似 于 (2) 中 的 有 序 对 ， 通 过 扩展 这 个 4 串 ， 来 匹配 这 个 8 串 ， 这 些 有 序 对 帮助 扩展 这 个 B 申 
来 加 入 下 一 个 ID。 但 是 ， 这 些 有 序 对 使 用 状态 来 确定 在 当前 ID 中 的 改变 ， 这 个 改变 是 产生 
下 一 个 ID 所 必需 的 。 这 些 改变 (新 的 状态 、 带 符号 和 带头 移动 ) 都 反映 在 这 个 3 串 结尾 正 
在 构造 的 ID 中 。 

4. 如果 这 个 B 串 结尾 的 这 个 人 D 有 接受 状态 ， 则 需要 允许 这 个 部 分 解 成 为 完全 解 。 通 过 扩展 一 

些 “ID” 来 这 样 做 ， 这些“ID” 其 实 不 是 M 的 ID， 而 是 表示 : 如 果 人 允许 接受 状态 消耗 其 
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任何 一 边 的 所 有 带 符号 ， 则 可 能 发 生 什 么 事情 。 因 此 ， 如 果 4 是 一 个 接受 状态 ， 则 对 于 所 
有 带 符 号 X 和 Y， 存 在 有 序 对 


表 4 RB 
XqY q 
xq q 


wy q 
5. 最 后 ， 一 旦 这 个 接受 状态 消耗 了 所 有 带 符 号 ， 这 个 接受 状态 就 单独 作为 这 个 B 串 上 最 后 一 
个 ID。 也 就 是 说 ， 这 两 个 囊 的 撞 余 ( 即 这 个 B 串 的 一 部 分 后 级 ， 这 部 分 后 级 必须 加 入 到 这 
个 A 串 以 匹配 这 个 B 串 ) 是 q#。 使 用 最 后 一 个 有 序 对 
RA ` KB 
a r 
来 完成 这 个 解 。 
在 下 面 的 讨论 中 ， 把 上 面 产生 的 五 种 有 序 对 称 为 来 自 规则 (1) 的 有 序 对 、 来 自 规则 (2) 的 有 序 
对 ， 依 此 类 推 。 


例 9.18 TM 
M = ({q1, q2, q3}, {0, 1}, {0, 1, B}, ô, qı, B, {93}), 
其 中 5 由 下 列 方式 给 出 : 





把 这 个 TM 和 输入 串 w = 01 转 换 成 一 个 MPCP 实 例 。 为 了 简化 起 见 ， 注 意 ，M 永 不 写 下 空格 ， 所 以 
在 一 个 ID 中 将 永远 没有 B。 因 此 ， 这 里 忽略 所 有 涉及 B 的 有 序 对 。 这 些 有 序 对 的 完整 列表 在 图 9.15 
中 ， 图 中 还 有 关于 每 个 有 序 对 来 源 的 解释 。 
注意 ，M 通 过 下 列 移动 序列 接受 输入 01: 
qı01 F1g21 上 109, 上 19201 上 9101 

看 看 模拟 M 的 这 个 计算 的 部 分 解 的 序列 ， 并 最 终 导 致 一 个 解 。 在 MPCP 任 何 解 当中 ， 都 要 求 必须 
从 第 一 个 有 序 对 开头 ; 

A: # 

B; #q,01# 
扩展 这 个 部 分 解 的 惟一 方式 是 ， 来自 这 个 4 表 的 串 是 剩余 901# 的 前 绥 。 因此， 下 一 步 必须 选择 
这 个 有 序 对 (qi0, 19;)， 这 个 有 序 对 是 从 规则 (3) 得 出 的 模拟 移动 的 有 序 对 当中 的 一 个 ， 这 个 部 分 
解 因此 就 是 

A: #q,0 

B: #q,01#1q. 
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pam | æa | ee | 来 源 于 

0) |[# | #n0l# 

(2) [0 0 
1 1 
# # 

(3) [ao Iq 5(q1,0) = (%2, 1, R) 
Ogi1 “| 9200 ôlq, 1) = (42,0, L) 
lqıl | q210 ôlqı, 1) = (42,0, L) 
On# | qz01# óla, B) = (%2,1, L) 
ln# | qzll# 6(q1; B) = (g2,1,L) 
0g20 . | q300 6(q2,0) = (43,0, L) 
1q20 | 9310 5(q2,0) = (93,0, L) 
gl | Om (42,1) = (41,0, R) 
g2## | 0g2## 5(q2, B) = (42,0, R) 

(4) |090 | as 
0qs1 | 4 
1q30 “| 93 
lgl | 43 
0gs % 
lgs Q3 
By a3 
4% 4% 

(5) | oH | # 

















图 9-15 从 例 9.18 的 TM M 构 造 的 MPCP 实 例 


通过 使 用 来 自 规则 (2) 的 “复制 ”有 序 对 ， 现 在 可 以 进一步 扩展 这 个 部 分 解 ， 直 到 到 达 第 二 个 ID 
中 的 状态 为 止 。 这 个 部 分 解 于 是 就 是 : 


A; #q01#1 
B: #q01#1q:1#1 


在 这 个 时 刻 ， 可 以 使 用 规则 (3) 有 序 对 当中 的 另 一 个 来 模拟 移动 ， 正 确 的 有 序 对 是 (921, 0g), 


出 的 这 个 部 分 解 是 : 


A: 如 101#1921 
B, #qi01#1g21#10g; 


现在 本 来 可 以 使 用 规则 (2) 有 序 对 来 “复制 ” 接 下 来 的 三 个 符号 : #, 1,0。 但 是 ， 走 得 那样 远 可 能 
是 个 错误 ， 因 为 M 的 下 一 步 移动 是 把 带头 向 左 移动 ， 状 态 前 面 紧 挨 着 的 这 个 0 是 下 一 个 规则 (3) 有 
序 对 中 所 需要 的 。 因 此 ， 只 “复制 ” 接 下 来 两 个 符号 ， 让 这 个 部 分 解 是 : 


A: #qOl#lga1#1 
B: #q01#1g1#10g,#1 


UA FHLB TE BLU (SYA FRE quit, q201#), kA ARTE AD R: 


A: #4101#1g21#10g# 
B: #q01#1q:1#10q:#1q:01# 


现在 可 以 使 用 另 一 个 规则 (3) 有 序 对 (1q20, qs10)， 这 个 有 序 对 导致 接受 : 
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A; #q0l#lq21#10g:#1g:0 
B: #q,01#1q21#10q,#1q:01#q310 
在 这 个 时 候 ， 使 用 来 自 规则 (4) 的 一 些 有 序 对 来 从 ID 中 消耗 除 q; 之 外 的 所 有 符号 。 还 需要 来 自 规 
则 (2) 的 一 些 有 序 对 来 在 必要 时 复制 符号 。 下 一 个 部 分 解 是 : 
A: #q01#1q:1#10q:#1q:01#q:101#q:01#q;1# 
B; #q01#1q:1#10q:#1q:01#q:101#q:01#q:1#q:# 
在 ID 中 只 剩 下 9， 可 以 使 用 来 自 规则 (53) 的 有 序 对 (9 在 ,胡来 完成 这 个 解 : 
A: #q01#1q:1#10q:#1q:01#q:101#q:01#qs1#q## 
B: #qi0l#1qo1#10qi# 14:0 1#qs101#q,01#qs1#qatt 口 


定理 9.19 波斯 特 对 应 问题 是 不 可 判定 的 。 

证 明 ”几乎 已 经 完成 了 如 图 9-11 所 示 的 归 约 链 。 从 MPCP 到 PCP 的 归 约 如 图 9-17 所 示 。 本 节 
的 这 个 构造 说 明 ， 如 何 把 L, 归 约 到 MPCP。 因 此 ， 通 过 证 明 这 个 构造 是 正确 的 ， 就 完成 了 PCP 不 
可 判定 性 的 证 明 ， 也 就 是 说 ， 


*MM 接 受 w 当 且 仅 当 构造 的 这 个 MPCP 实 例 有 解 。 


( 仅 当 ) 例 9.18 给 出 了 基本 思路 。 如 果 w 属 于 LM)， 那 么 可 以 从 来 自 规则 (1) 的 这 个 有 序 对 开 
始 ， 并 且 模 拟 M 在 w 上 的 计算 。 使 用 来 自 规则 (3) 的 一 个 有 序 对 从 每 个 ID 复 制 状态 并 模拟 M 的 一 步 
移动 ， 使 用 来 自 规则 (2) 的 这 些 有 序 对 在 必要 时 复制 带 符号 和 标记 #。 如 果 M 到 达 接受 状态 ， 那 么 
来 自 规则 (4) 的 这 些 有 序 对 以 及 最 后 使 用 的 来 自 规 则 (5) 的 这 个 有 序 对 ， 人 允许 这 个 4 串 赶 上 这 个 B 串 
并 形成 一 个 解 。 
( 当 ) 需要 论证 :如 果 这 个 MPCP 实 例 有 解 ， 那 么 只 能 是 因为 M 接 受 w。 首 先 ， 因 为 正在 讨论 
MPCP， 所 以 任何 解 都 必须 从 第 一 个 有 序 对 开头 ， 所 以 一 个 部 分 解 开头 是 
A: # 
B: #qow# 
只 要 在 这 个 部 分 解 中 没有 接受 状态 ， 来 自 规则 (4) 和 规则 (5) 的 有 序 对 就 没有 用 处 。 一 个 ID 当中 的 
状态 和 状态 两 边 的 一 两 个 带 符号 ， 只 能 用 来 自 规则 (3) 的 有 序 对 来 处 理 ， 所 有 其 他 的 带 符 号 和 #， 
必须 用 来 自 规则 (2) 的 有 序 对 来 处 理 。 因 此 ， 除 非 M 到 达 一 个 接受 状态 ， 否 则 所 有 部 分 解 都 具有 
以 下 形式 : 
A: x 
B: xy 
其 中 ，x 是 W 的 一 个 ID 序列 ， 这 个 序列 表示 M 在 w 上 的 计算 ， 可 能 跟着 # 和 下 一 个 ID a 的 开头 。 剩 
Rye: o 的 剩余 部 分 ， 另 一 个 #，c 的 后 继 ID 的 开头 ， 直 到 xp 人 a 自 身 结尾 时 为 止 。 
具体 地 说 ， 只 要 M 不 进入 接受 状态 ， 这 个 部 分 解 就 不 是 一 个 解 ，B 串 就 比 4 捉 更 长 。 因 此 ， 
如 果 有 一 个 解 ， 则 M 一 定 在 某 个 时 刻 进 入 一 个 接受 状态 ， 即 村 接受 w。 Oo 
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94.4 习题 


习题 9.4.1 说 出 下 列 每 个 PCP 实 例 是 否 有 解 。 每 个 实例 表示 成 两 个 表 4 和 B， 对 于 i= 1,2,…， 
两 个 表 上 的 第 ;个 串 相互 对 应 。 
* a) A = (01,001, 10); B = (011, 10,00), 
b) A = (01,001, 10); B = (011,01,00), 
c) A=(ab,a,be,c); B= (bc, ab, ca,a), 

! 习题 9.4.2 虽然 已 经 证 明了 PCP 是 不 可 判定 的 ， 但 是 假设 了 字母 表 2 是 任意 的 。 证 明 : 即使 
限制 字母 表 E = {0, 1}，PCP 也 是 不 可 判定 的 ， 方 法 是 把 PCP 归 约 到 这 种 特殊 情形 的 PCP 上 。 

+! 习题 9.4.3 ”假设 把 PCP 限 制 到 单 符号 字母 表 上 ， 比 如 说 = {0}。PCP 的 这 个 限制 情形 是 否 
还 是 不 可 判定 的 ? 

! 习题 9.4.4 ”波斯 特 标 记 系 统 由 一 些 串 的 有 序 对 集合 和 一 个 初始 串 组 成 ， 这 些 串 是 从 某 个 有 
穷 字母 表 中 选择 的 。 如 果 (w, 是 一 个 有 序 对 并 且 y 是 上 任意 串 ， 则 说 wy Hyx。 也 就 是 说 ， 在 
一 步 移动 中 ， 可 以 删除 “当前 ” 串 wy 的 某 个 前 级 w， 并 且 相 应 地 在 第 二 部 分 y 的 后 面 加 入 与 w 配 
对 的 串 x。 正 如 上 下 文 无 关 文法 中 的 推导 那样 ， 定 义 上 意味 着 零 步 或 多 步 上 。 证 明 : 给 定 一 个 有 
序 对 集合 P 和 一 个 初始 串 z， 是 否 z 上 e 是 不 可 判定 的 。 提 示 : 对 于 每 个 TM M 和 输入 w， 设 z 是 带 输 
入 w 的 M 的 初始 ID， 后 面 跟着 分 隔 符 #。 选 择 这 样 一 些 有 序 对 P， 使 得 W 的 任何 ID 都 一 定 最 终 成 为 
其 后 继 ID， 这 个 后 继 ID 是 经 过 M 的 一 步 移动 而 产生 的 。 如 果 M 进 入 一 个 接受 状态 ， 则 做 出 安排 ， 
最 终 删除 当前 这 个 串 ， 即 递归 到 e。 


9.5 其 他 不 可 判定 问题 


现在 ， 将 要 考虑 各 式 各 样 的 其 他 问题 ， 可 以 证 明 这 些 问 题 是 不 可 判定 的 。 主 要 技术 是 : 把 
PCP 归 约 到 希望 证 明 不 可 判定 的 那个 问题 上 。 


9.5.1 与 程序 有 关 的 问题 


首先 注意 ， 可 以 用 任何 常规 语言 来 写 出 一 个 程序 ， 这 个 程序 以 一 个 PCP 实 例 作为 输入 ， 以 
某 种 系统 的 方式 来 搜索 解 ， 例 如 ， 按 照 候选 解 的 长 度 〈 即 有 序 对 个 数 ) 顺序 。 因 为 PCP 人 允许 任 
意 字母 表 ， 所 以 应 当 用 二 进 制 或 某 个 其 他 固定 字母 表 来 编码 PCP 字 母 表 的 符号 ， 如 同 在 9.4.1 节 
的 “PCP 作 为 语言 ”的 方 框 中 所 讨论 过 的 那样 。 

可 以 让 这 个 程序 去 做 想 让 它 做 的 任何 具体 事情 ， 例 如 ， 当 这 个 程序 找到 解 时 ， 就 停机 或 显示 
hello, world。 否 则 ， 这 个 程序 将 永 不 执行 这 个 特定 动作 。 因 此 ， 一 个 程序 是 否 显示 helloy 
world， 是 否 停机 ， 是 否 调用 一 个 特定 函数 ， 是 否 让 控制 台 响 铃 ， 或 者 是 否 做 任何 其 他 非 同 寻常 
的 动作 等 ， 这 些 都 是 不 可 判定 的 。 事 实 上 ， 对 于 程序 ， 存 在 着 与 莱 斯 定理 类 似 的 结果 : 与 程序 做 
什么 (而 不 是 程序 本 身 的 词法 或 语法 性 质 ) 有 关 的 任何 非 平凡 性 质 一 定 是 不 可 判定 的 。 


9.5.2 CFG 歧 义 性 问题 
程序 与 图 灵机 是 够 相似 ， 所 以 9.5.1 节 的 事实 并 不 令 人 惊讶 。 现在 ， 将 要 看 到 ， 如 何 把 PCP 
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归 约 到 看 起 来 与 计算 机 毫 无 关系 的 一 个 问题 : 一 个 给 定 的 上 下 文 无 关 文 法 是 否 歧 义 的 问题 。 

关键 想法 是 考虑 这 样 一些 串 : 这 些 串 以 相反 顺序 表示 下 标 (整数 ) 表 ， 以 及 依照 PCP 实 例 
两 个 表 之 一 得 出 的 对 应 串 。 文 法 可 以 生成 这 些 串 。 文 法 也 可 以 生成 PCP 实 例 中 另 一 个 表 的 类 似 
的 串 集合 。 如 果 用 显而易见 的 方式 来 取 这 两 个 文法 的 并 ， 那 么 存在 由 原来 每 个 文法 的 产生 式 同 
时 生成 的 一 个 种， 当 且 仅 当 这 个 PCP 实 例 存在 一 个 解 。 因 此 ， 存 在 一 个 解 当 且 仅 当 这 个 并 文法 
中 存在 歧义 性 。 

现在 更 精确 地 描述 这 些 想法 。 设 这 个 PCP 实 例 包含 表 4 = wi, w, …, wt 和 表 B = Xi, ze 
对 于 表 4， 将 要 构造 以 4 作为 惟一 变 元 的 一 个 CRG。 这 些 终结 符 是 用 于 这 个 PCP 实 例 的 字母 表 Z 的 
所 有 符号 ， 以 及 一 组 不 同 的 下 标 符号 ai, ax, …, qt， 这 些 下 标 符号 表示 在 这 个 PCP 实 例 的 一 个 解 当 
中 对 于 串 有 序 对 的 选择 。 也 就 是 说 ， 下 标 符号 表示 从 4 表 选 择 w; 或 从 B 表 选择 w。4 表 的 CFG 的 
FERE: 

A—wiAa | wAa2 | -- | wiAar | 


wiai | waa2 | … | wiax 
把 这 个 文法 及 共 语 言 称 为 G, 和 La。 在 将 来 ， 把 类 似 L4 的 语言 称 为 表 A 的 语言 。 
注意 ， 由 G4 推导 的 终结 串 是 ， 对 于 某 个 m 之 1 和 整数 表 i, iz …, in， 每 个 整数 是 在 1 到 k 的 范 


围 内 ， 所 有 形 如 wiwa … wwaw … an Gi, 的 这 些 串 。G4 的 句 型 都 在 串 A 
(w) 和 下 标 符号 (a) 之 间 有 单个 4， 直 到 使 用 最 后 一 组 k 个 产生 式 当 Iasi SQ 
中 一 个 为 止 ， 这 些 产生 式 体 中 都 没有 4。 因 此 ， 这 些 语法 分 析 树 类 似 


wi A a; 

于 如 图 9-16 所 示 的 树 。 “ta 
另外 注意 ， 在 G4 中 从 4 推导 的 任何 终结 品 都 有 惟一 的 推导 。 在 这 。 esa A 
个 串 结尾 的 下 标 符号 惟一 地 确定 了 在 每 一 步 必须 使 用 哪 一 个 产生 式 。 ? ， 





也 就 是 说 ， 只 有 两 个 产生 式 体 是 以 给 定 下 标 符号 a 结尾 的 : A 一 wiAa A 
和 4 一 wai。 如 果 这 个 推导 步 不 是 最 后 一 步 ， 就 必须 使 用 第 一 个 产生 式 ， AN 
如 果 是 最 后 一 步 ， 就 使 用 第 二 个 产生 式 。 eat ee) 
现在 考虑 这 个 给 定 PCP 实 例 的 其 他 部 分 ， 即 表 B= 21,2250 44 对 ”ANNA 
于 这 个 表 ， 开 发 另 一 个 文法 Go wi 
BaPa Belin e EN 
mai | x202 | +++ Lae 析 树 的 形状 
这 个 文法 的 语言 将 被 称 为 la。 对 于 Gu 所 注意 到 的 也 适用 于 Ga。 具体 地 说 ,5 中 一 个 终结 串 具有 
惟一 的 一 个 推导 ， 在 这 个 串 结尾 的 下 标 符号 可 以 确定 这 个 推导 。 
最 后 ， 把 这 两 个 表 的 语言 和 文法 组 合 起 来 ， 为 整个 PCP 实 例 形成 一 个 文法 Gua。 Gant 
LAETA, B, Sy 5 是 初始 符号 。 
2. 产 生 式 3 一 41B。 
3. G4 的 所 有 产生 式 。 
4. Gs 的 所 有 产生 式 。 
我 们 断言 Gw 是 歧义 的 当 且 仅 当 PCP 实 例 (4, 码 有 解 ， 这 个 论证 是 下 一 个 定理 的 核心 


imi 


a 
im 
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定理 9.20 CFG 是 否 歧义 是 不 可 判定 的 。 
证 明 ”已 经 给 出 了 从 PCP 到 CFG 是 否 歧义 的 问题 的 这 个 归 约 的 大 半 部 分 ， 这 个 归 约 证 明 CFG 
歧义 性 问题 是 不 可 判定 的 ， 因 为 PCP 是 不 可 判定 的 。 只 需要 证 明 上 面 的 构造 是 正确 的 ， 也 就 是 说 : 


*Gns 是 歧义 的 当 且 仅 当 PCP 实 例 (4, B) 有 解 。 
( 当 ) ABBA, iz …,zm 是 PCP 的 这 个 实例 的 一 个 解 。 考 虑 Gw 中 两 个 推导 : 


S=> Aw, Aa, = ww, Aa a, = 
Wa Wh" wE Aa 00 => WW Wao Tad 
S= B= x,Ba, = x,x,Ba,a, 一 人 一 


而 和 天 


Wi, in, …, 癌 是 一 个 解 ， 所 以 知道 wwa … Win =h xiw。 因 此 这 两 个 推导 是 对 同一 个 终结 
串 的 推导 。 因 为 这 两 个 推导 本 身 显然 是 同一 个 终结 串 的 两 个 不 同 最 左 推导 ， 所 以 结论 是 : Gay 是 
歧义 的 。 

( 仅 当 ) 已 经 注意 到 : 一 个 给 定 的 终结 串 ， 在 G4 中 不 可 能 有 多 个 推导 ， 并 且 在 Ge 中 不 可 能 
有 多 个 推导 。 所 以 一 个 终结 串 在 Gus 中 可 能 有 两 个 最 左 推 导 的 惟一 方式 是 : 如 果 其 中 一 个 推导 以 
3 一 4 开头 并 继 之 以 G 中 的 推导 ， 另 一 个 推导 以 S 一 B 开 头 并 继 之 以 Ga 中 同一 个 串 的 推导 。 

对 于 某 个 m> 1， 这 个 具有 两 个 推导 的 串 带 有 结尾 下 标 ou … asan。 这 个 结尾 必定 是 这 个 PCP 
实例 的 一 个 解 ， 原 因 在 于 ， 在 这 个 双 推 导 串 结尾 之 前 的 内 容 既 是 wiwa … wi 又 是 x xz。 O 


9.5.3 表 语 言 的 补 
有 了 类 似 于 表 A 的 语言 Ls 这样 的 上 下 文 无 关 语 言 ， 就 可 以 证 明 与 CEL 有关 的 许多 问题 都 是 不 





可 判定 的 。 通 过 考虑 补 语言 可 以 获得 CFL 的 更 多 的 不 可 判定 性 事实 。 注 意 ， 语 言 包含 字母 
K IUa, a2,…, qi} 上 不 属于 L4 的 所 有 捉 ， 其 中 3 是 某 个 PCP 实 例 的 字母 表 ， 这 些 o 是 表示 这 个 
PCP 实 例 中 有 序 对 下 标的 不 同 符号 。 

五 中 有 趣 的 成 员 是 一 些 串 ， 这 些 串 包括 2* 中 一 个 前 级 ， 这 个 前 组 是 来 自 4 表 的 某 些 串 的 连 
接 ， 后 面 跟着 下 标 符号 的 一 个 后 缀 ， 这 些 下 标 符号 不 与 来 自 4 的 那些 串 匹配 。 但 是 ， 五 中 也 存 
在 许多 串 只 不 过 是 具有 错误 的 形式 : 这 些 串 不 属于 正则 表达 式 (atat +a) WIRE. 

我 们 断言 五 是 CFL。 与 L 不 同 的 是 ， 虽 然 为 五 设计 一 个 文法 不 是 很 容易 ， 但 是 可 以 为 五 
设计 一 个 PDA， 事 实 上 是 一 个 确定 型 PDA。 这 个 构造 在 下 一 个 定理 中 。 


定理 9.21 如 果 L4 是 表 A 的 语言 ， 则 工 ,是 上 下 文 无 关 语言 。 
证 明 it DERA = w, ws,…, ws 上 串 的 字母 表 ， 设 1 是 下 标 符号 的 集合 : 7 = {a a2,…, ax}, 
设计 用 来 接受 世 的 DPDA P 工 作 如 下 : 
1. 只 要 P 看 到 中 的 符号 ， 就 把 这 些 符号 保存 在 堆栈 中 。 因 为 2* 中 所 有 的 串 都 属于 到 ， 所 
以 当 P 这 样 进行 时 ，P 接 受 。 
2. 只 要 P 看 到 1 中 一 个 下 标 符号 ， 如 a;， 就 弹出 堆栈 ， pot feel bash wry 
这 个 对 应 串 的 反 转 。 





415| 

















416| 





Download at http://www.pinSi.com/ 


284 HIE 





(a) 如 果 不 是 ， 则 到 目前 为 止 所 看 到 的 这 个 输入 ， 并 且 这 个 输入 的 任何 延长 都 属于 五 。 因 
此 ，P 进 入 一 个 接受 状态 ， 在 这 个 状态 中 消耗 掉 所 有 未 来 的 输入 符号 ， 不 改变 堆栈 。 
(b) 如 果 w 从 堆栈 中 弹出 了 ， 但 是 栈 底 标 记 还 没有 暴露 在 堆栈 上 ， 那 么 P 接 受 ， 但 是 P 在 

状态 中 记 住 P 正 在 专门 寻找 /中 的 符号 ,并 且 可 能 看 到 L 中 的 一 个 串 〈P 将 不 接受 这 个 
串 )。 只 要 这 个 输入 是 否 属于 Za 的 问题 还 没有 解决 ，P 就 重复 步骤 (2)。 
©) 如 果 w' 从 堆栈 中 弹出 了 ， 并 且 栈 底 标记 暴露 了 ， 则 P 已 经 看 到 了 一 个 I 中 的 输入 。P 
不 接受 这 个 输入 。 但 是 ， 因 为 任何 输入 继续 都 不 可 能 属于 Lx， 所 以 P 进 入 一 个 状态 ， 
在 这 个 状态 下 接受 所 有 未 来 的 输入 ， 保 持 堆 栈 不 变 。 
3. 如 果 在 看 到 一 个 或 多 个 /的 符号 之 后 ，P 看 到 另 一 个 2 的 符号 ， 则 这 个 输入 不 具有 属于 LL 
的 正确 形式 。 因 此 ，P 进 入 一 个 状态 ， 在 这 个 状态 中 接受 这 个 以 及 所 有 未 来 的 输入 ， 不 改 
变 堆栈 。 o 


可 以 用 不 同 的 方式 使 用 [4、Ls 及 它们 的 补 来 证 明 与 上 下 文 无 关 语 言 有 关 的 不 可 判定 性 结果 。 
下 一 个 定理 总 结 了 一 些 这 样 的 事实 。 


定理 9.22 设 G, 和 Gs 是 上 下 文 无 关 文 法 ， 设 R 是 正则 表达 式 。 则 下 列 问 题 都 是 不 可 判定 的 : 

a) LGN)N L(G) =Ø? 

b) Gi) = L(G) "52 

c) L(Gi) = L(R) DS? 

dD) 对 于 某 个 字母 表 7，L(G1) = 7° 1? 

©) LG) E L(G») 3? 

PLR) SLGY) 92 

证 明 ”这 些 证 明 中 的 每 一 个 都 是 来 自 PCP 的 一 个 归 约 。 证 明 如 何 把 一 个 PCP 实 例 (4, B) 转 化 
为 一 个 与 CFG 和 (或) 正则 表达 式 有 关 的 问题 ， 这 个 问题 有 答案 “是 ” 当 且 仅 当 这 个 PCP 实 例 有 
解 。 在 一 些 情况 下 ， 把 PCP 归 约 到 定理 中 叙述 的 这 个 问题 上 ， 在 另 一 些 情况 下 ， 把 PCP 归 约 到 这 
个 问题 的 补 。 这 是 无 关 紧要 的 ， 因 为 如 果 证 明 一 个 问题 的 补 是 不 可 判定 的 ， 那 么 就 不 可 能 有 这 
个 问题 本 身 是 可 判定 的 ， 因 为 递归 语言 对 于 补 封闭 (定理 93)。 

我 们 把 这 个 实例 的 串 的 字母 表 称 为 也， 把 下 标 符号 的 字母 表 称 为 1。 这些 归 约 依赖 于 这 样 一 
个 事实 : La La Li. 、 石 都 有 CFG。 要 么 直接 构造 这 些 CFG， 就 像 在 9.5.2 节 中 那样 ,要 么 通过 
为 定理 9.21 中 给 出 的 补 语言 构造 一 个 PDA， 再 结合 使 用 定理 6.14 从 PDA 转 化 到 CFG 来 构造 这 些 
CFG, 

a) BEL(Gi) = La ELG) = Lee FIELG:) N KG?) 是 这 个 PCP 实 例 的 解 集合 。 这 个 交 为 空当 且 

仅 当 不 存在 解 。 注 意 ， 从 技术 上 说 ， 已 经 把 PCP 归 约 到 这 个 CFG 对 的 语言 ， 这 些 CFG 对 的 
交 非 空 ， 即 已 经 证 明了 这 个 问题 “两 个 CFG 之 交 是 否 非 空 ” 是 不 可 判定 的 。 但 是 ， 正 如 
在 这 个 证 明 的 介绍 中 指出 的 那样 ， 证 明 一 个 问题 的 补 是 不 可 判定 的 ， 就 等 价 于 证 明 这 个 
问题 本 身 是 不 可 判定 的 。 

b) 因为 CFG 对 于 并 封闭 ， 故 可 以 为 五 U 五 构造 一 个 CFG Gi。 因 为 (5UD)* 是 一 个 正则 集合 ， 
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所 以 肯定 可 以 为 ( 3UD) 构造 一 个 CEFG Ge MEL UT, = LAL . Aik, UGYE 
少 表示 这 个 PCP 实 例 的 解 的 串 。L(G2) 不 缺少 ( SUN" 中 的 任何 串 。 因 此， 这 两 个 CFG 的 语 
言 相等 当 且 仅 当 这 个 PCP 实 例 无 解 。 

©) 这 个 论证 与 (b) 的 论证 相同 ， 但 是 设 R 是 正则 表达 式 ( FUN". 

d (9) 的 论证 就 是 够 了 ， 因 为 ZU 是 满足 下 列 条 件 的 惟一 的 字母 表 、 五 U 五 可 能 是 这 个 字 
母 表 的 闭 包 。 

日 设 G, 是 (ZU1 的 一 个 CFG， 并 设 Gs 是 ZL,U 工 ,的 一 个 CFG。 于 是 ，L(G1) SLG)“ RAX 
LUL =(ZUD'， 即 当 且 仅 当 这 个 PCP 实 例 无 解 。 

D 这 个 论证 与 (6) 的 论证 相同 ， 但 是 设 R 是 正则 表达 式 (LUN, FLG LUL. O 


9.5.4 习题 


* 习 题 9.5.1 设 L 是 上 下 文 无 关 文 法 G 的 (编码 的 ) 集合 ， 使 得 L(G) 包 含 至 少 一 个 回 文 。 证 明 ; 
是 不 可 判定 的 。 提示: 把 PCP 归 约 到 LL， 方 法 是 从 每 个 PCP 实 例 构 造 一 个 文法 ， 这 个 文法 的 语言 
包含 回 文 当 且 仅 当 这 个 PCP 实 例 有 解 。 

! 习题 9.5.2 证 明 : 语言 LU L, 是 正则 语言 当 且 仅 当 这 个 语言 是 字母 表 上 所 有 串 的 集合 ， 即 
当 且 仅 当 这 个 PCP 实 例 (4, 8) 无 解 。 因 此 证 明了 : 一 个 CFG 是 否 产 生 一 个 正则 语言 是 不 可 判定 的 。 
提示 : 假设 PCP 有 解 ， 比 如 说 L U L, 缺少 串 wx， 其 中 w 是 来 自 这 个 PCP 实 例 的 字母 表 的 串 ，x 是 
下 标 符号 的 对 应 串 的 反 转 。 定 义 同 态 NO) = w 和 MD =x, BAM“ U L EtA? PATENI 
合 在 逆 同 态 和 补 之 下 封闭 的 事实 ， 以 及 正则 集合 的 泵 引 理 ， 来 证 明 T U L, 不 是 正则 的 。 

1 习题 9.5.3 CFL 的 补 是 否 也 是 CFL 是 不 可 判定 的 。 习 题 9.5.2 可 以 用 来 证 明 ，CFL 的 补 是 否 正 
则 的 是 不 可 判定 的 ， 但 是 这 两 者 不 是 同一 件 事情 。 为 了 证 明 原 来 的 断言 ， 需 要 定义 一 个 不 同 的 
语言 ， 这 个 语言 表示 一 个 PCP 实 例 (4, B) 的 无 解 性 。 设 Lns 是 形 如 w#xfp#z 的 串 的 集合 ， 使 得 下 列 
条 件 1~3 都 成 立 ， 条 件 4~7 至 少 一 个 成 立 : 

1.w 和 zx 都 是 这 个 PCP 实 例 的 字母 表 上 上 的 串 。 

2.7 和 z 都 是 这 个 实例 下 标 字 母 表 / 上 的 串 。 

3.# 是 既 不 属于 也 不 属于 /的 符号 。 

4. wx, 

S.y#2, 

6. 式 不 是 下 标 串 y 根 据 表 B 所 产生 的 串 。 

1. WAR FERRI LEAT ENR. 
TEM, Law 包含 EAr Ar 中 所 有 的 串 ， 除 非 这 个 实例 (4, B) 有 解 而 Lns 照样 是 一 个 CFL。 证 
W: Lo 是 CFL 当 且 仅 当 不 存在 解 。 提 示 使 用 习题 9.5.2 的 逆 同 态 技巧 ， 并 且 使 用 奥 格 登 引 理 来 
强迫 某 些 子 串 长 度 相等 ， 如 同 在 习题 7.2.5(b) 的 提示 中 那样 。 


9.6 小 结 
“递归 语言 和 递归 可 枚 举 语言 : 图 灵机 接受 的 语言 称 为 递归 可 枚 举 的 《RE)， 总 是 停机 的 
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TM 接 受 的 RE 语言 的 子 集 称 为 递归 的 。 

"递归 语言 和 RE 语言 的 补 : 递归 语言 对 于 补 封闭 ， 并 且 如 果 一 个 语言 及 其 补 都 是 RE， 则 这 
两 个 语言 其 实 都 是 递归 的 。 因 此 ，RE 但 非 递归 语言 的 补 决 不 可 能 是 RE。 

* 可 淹 定 性 与 不 可 判定 性 ;:“ 可 判定 的 ”是 “递归 的 ”同义词 ， 尽 管 倾向 于 把 语言 称 为 “ 递 
归 的 ”而 把 问题 (问题 就 是 把 语言 解释 为 询问 一 个 问题 ) 称 为 “可 判定 的 "。 如 果 一 个 语 
言 不 是 递归 的 ， 则 把 这 个 语言 表示 的 问题 称 为 “不 可 判定 的 ”。 

“语言 [4: 这 个 语言 是 当 将 其 解释 为 TM 时 它 不 属于 这 个 TM 的 语言 的 0 和 1 的 串 的 集合 。Ls 是 
非 RE 语 言 的 范例 ， 即 没有 图 灵机 接受 这 个 语言 。 

“通用 语言 : 语言 L, 由 解释 为 一 个 TM 并 且 后 面 跟着 这 个 TM 的 一 个 输入 的 串 组 成 。 如 果 TM 
接受 这 个 输入 ， 则 这 个 串 属于 L,。L, 是 RE 但 非 递归 的 语言 的 范例 。 

“ 莱 斯 定理 ,图 灵机 所 接受 语言 的 任何 非 平凡 性 质 都 是 不 可 判定 的 。 例 如 ， 根 据 莱 斯 定理 ; 
语言 为 空 的 图 灵机 的 编码 的 集合 是 不 可 判定 的 。 事 实 上 ， 这 个 语言 不 是 RE， 虽 然 这 个 语 
言 的 补 (至 少 接受 一 个 串 的 TM 的 编码 的 集合 ) 是 RE 但 不 是 递归 的 。 

“波斯 特 对 应 问题 : 这 个 问题 询问 : 给 定 相同 个 数 的 串 的 两 个 表 ， 是 否 能 从 两 个 表 挑 选 对 应 
串 的 序列 ， 通 过 连接 形成 相同 的 串 。PCP 是 不 可 判定 问题 的 重要 例子 。 对 于 归 约 到 其 他 问 
题 上 ， 并 由 此 证 明 这 些 问题 是 不 可 判定 的 来 说 ，PCP 是 一 个 好 的 选择 。 

“不 可 判定 的 上 下 文 无 关 语言 问题 通过 来 自 PCP 的 归 约 ， 能 够 证 明 与 CFL 或 其 文法 有 关 的 
许多 问题 是 不 可 判定 的 。 例 如 ，CFG 是 否 歧义 的 ， 一 个 CFL 是 否 包含 在 另 一 个 CFL 中 ， 两 
个 CFL 的 交 是 否 为 空 ， 这 些 都 是 不 可 判定 的 。 
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第 10 章 难 解 问题 


什么 能 被 计算 或 什么 不 能 被 计算 的 讨论 ， 现 在 要 归结 到 有 效 计算 对 无 效 计算 的 程度 上 来 进 
行 。 只 讨论 可 判定 问题 ， 问 : 在 输入 规模 的 多 项 式 时 间 里 运行 的 图 灵机 能 计算 哪些 可 判定 问题 。 
应 当 复习 8.6.3 节 的 两 个 要 点 : 

“在 典型 计算 机 上 在 多 项 式 时 间 里 能 解答 的 问题 ， 恰 好 就 是 在 图 灵机 上 在 多 项 式 时 间 里 能 解 

答 的 问题 。 

"经验 表 明 ， 在 多 项 式 时 间 里 能 解答 的 问题 与 需要 指数 或 更 长 时 间 才 能 解答 的 问题 之 间 的 分 
界线 是 相当 重要 的 。 需 要 多 项 式 时 间 的 实际 问题 几乎 总 是 在 可 容忍 的 时 间 内 就 能 解答 ， 而 
除了 小 的 实例 之 外 ， 需 要 指数 时 间 的 问题 一 般 都 不 能 解答 。 

本 章 介绍 “ 难 解 性 ”理论 ， 即 证 明 不 能 在 多 项 式 时 间 里 解答 的 问题 的 技术 。 首 先 考虑 一 个 
具体 问题 : 布尔 表达 式 能 否 被 满足 的 问题 ， 也 就 是 说 ， 从 真 值 ?RUE 和 FALSE 到 布尔 表达 式 变 元 
的 某 个 赋值 ， 能 否 使 这 个 布尔 表达 式 为 真 。 这 个 问题 对 于 难 解 问题 所 起 的 作用 就 像 或 PCP 对 
不 可 判定 问题 所 起 的 作用 一 样 。 也 就 是 说 ， 本 章 从 “ 库 克 定理 ”开始 ， 该 定理 蕴涵 了 不 能 在 多 
项 式 时 间 里 判定 布尔 公式 的 可 满足 性 。 然 后 证 明 如 何 把 这 个 问题 归 约 到 许多 其 他 问题 上 ， 从 而 
也 证 明 这 些 问题 是 难 解 的 。 

因为 正在 讨论 问题 能 否 在 多 项 式 时 间 里 解答 ， 所 以 必须 改变 归 约 的 概念 。 有 一 个 算法 把 问 
题 的 实例 变换 成 另 一 个 问题 的 实例 ， 这 还 不 充分 。 这 个 算法 本 身 必须 至 多 花费 多 项 式 时 间 ， 否 
则 ， 即 使 源 问题 是 难 解 的 ， 归 约 也 不 允许 得 出 结论 说 目标 问题 是 难 解 的 。 因 此 10.1 节 介绍 “多 项 
式 时 间 归 约 ”的 概念 。 

不 可 判定 性 理论 中 得 出 的 结论 与 难 解 性 理论 允许 得 出 的 结论 之 间 有 另 一 个 重要 区 别 。 第 9 章 
给 出 的 不 可 判定 性 证 明 都 是 无 可 争议 的 ， 这 些 证 明 只 依赖 于 图 灵机 的 定义 和 普通 数学 。 相 反 ， 
本 章 给 出 的 关于 难 解 问题 的 结果 都 依赖 于 一 个 未 经 证 明 但 几乎 公认 的 假设 ， 通 常 称 之 为 ?NP 
假设 。 

换 名 话说， 假设 在 多 项 式 时 间 里 运行 的 非 确定 型 TM 所 能 解答 的 问题 类 ， 至 少 含 有 在 多 项 
式 时 间 里 运行 的 确定 型 TM 所 不 能 解答 的 某 些 问题 (即使 允许 确定 型 TM 有 更 高 次 的 多 项 式 )。 毫 
不 夸张 地 说 ， 有 几 千 个 问题 似乎 属于 这 一 类 ， 因 为 多 项 式 时 间 NTM 人 能 轻而易举 地 解答 这 些 问题 ， 
但 是 还 不 知道 任何 多 项 式 时 间 DTM (或 计算 机 程序 ， 二 者 是 同样 的 ) 能 解答 这 些 问题 。 而 且 ， 
难 解 性 理论 的 重要 后 果 是 : 要 么 所 有 这 些 问题 都 有 多 项 式 时 间 确定 型 解法 (人 类 已 经 求 之 几 百 
年 而 不 得 )， 要 么 这 些 问题 都 没有 多 项 式 时 间 确定 型 解法 ， 即 这 些 问题 确实 需要 指数 时 间 。 


10.1 2P 类 和 NP 类 


本 节 介绍 难 解 性 理论 的 基本 概念 : 问题 的 2 类 和 NP 类 ( 即 确定 型 TM 和 非 确定 型 TM 分 别 在 
多 项 式 时 间 里 能 解答 的 问题 )， 以 及 多 项 式 时 间 归 约 的 技术 。 本 节 还 定义 “NP 完 全 性 ”的 概念 ， 
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即 WP 中 某 些 问题 所 具有 的 性 质 : 这 些 问 题 至 少 是 和 XP 中 任意 问题 一 样 难 的 (在 时 间 上 至 多 相 
差 多 项 式 ) 。 


10.1.1 可 在 多 项 式 时 间 内 解答 的 问题 


如 果 每 当 给 定 图 灵机 M 长 度 为 "的 输入 w 时 ，M 无 论 接 受 与 否 , 都 在 至 多 移动 T(n) 步 之 后 停机 ， 
则 说 M 具 有 时 间 复杂 性 ? Tn) (或 具有 “运行 时 间 7T(n)”")。 这 个 定义 适用 于 任意 函数 7(n)， 比 如 
T(n) = 50m 或 T(n) = 3° + Srt; 我 们 主要 是 对 7T(n) 是 n 的 多 项 式 的 情形 感 兴趣 。 如 果 存 在 某 个 多 项 
式 T(n) 和 某 个 具有 时 间 复 杂 性 T(n) 的 确定 型 TM M， 使 得 L = L(M)， 则 说 语言 L 属 于 P 类 。 





在 多 项 式 与 指数 之 间 有 没有 其 他 函数 ? 


在 这 个 引导 性 的 讨论 中 ， 以 及 后 续 的 讨论 中 ， 常 常 好 像 所 有 程序 要 么 在 多 项 式 时 间 
( 即 对 于 某 个 整数 :， 时 间 O(n)) 里 运行 ， 要 么 在 指数 时 间 ( 即 对 于 某 个 常数 ce， 时 间 O(2m)) 
或 更 长 的 时 间 里 运行 。 在 实践 中 ， 常 见 问题 的 已 知 算法 一 般 确 实 落 入 这 两 类 之 一 。 但 是 存 
在 着 介 于 多 项 式 与 指数 之 间 的 运行 时 间 。 在 谈论 指数 的 所 有 场合 中 ， 其 实 都 意味 着 “大 于 
所 有 多 项 式 的 任意 运行 时 间 ”。 

在 多 项 式 与 指数 之 间 的 函数 的 例子 是 mesz。 这 个 函数 比 "的 任何 多 项 式 都 增长 得 快 ， 
为 log n 最 终 (对 于 大 的 n) 变 得 比 任何 常数 k 都 大 。 另 一 方面 ，nos"= 20eez%2， 如 果 看 不 出 为 
什么 相等 ， 就 在 两 边 取 对 数 。 对 于 任意 c > 0， 这 个 函数 都 比 2” 增长 得 更 慢 。 也 就 是 说 ， 无 
论 正 的 常数 c 多 么 小 ， 最 终 cn 都 变 得 比 (logxD)? 大 。 























10.1.2 例子 : 克 鲁 斯 卡尔 算法 


读者 也 许 熟 悉 具 有 有 效 解 法 的 许多 问题 ， 也 许 在 关于 数据 结构 和 算法 的 课程 中 学 过 一 些 。 
这 些 问 题 一 般 都 属于 P。 本 节 将 考虑 一 个 这 样 的 问题 求 图 的 最 小 生成 树 (minimum-weight 
spanning tree, MWST), 

非 形式 化 地 ， 可 把 图 当 作 如 图 10-1 所 示 的 示意 图 。 存 在 着 顶点 (在 
本 例 的 图 中 这 些 顶 点 编号 为 1~4)， 一 些 顶点 对 之 间 存 在 着 边 。 每 条 边 a 


都 有 整数 权 。 生 成 树 是 连通 所 有 顶点 而 不 存在 回路 的 边 的 子 集 合 。 生 中 @) 

成 树 的 例子 如 图 10-1 所 示 ， 生成 树 是 用 粗 线 画 出 的 三 条 边 。 最 小 生成 树 

在 所 有 生成 树 中 具有 最 小 可 能 的 边 权 总 和 。 20 
求 MWST 存 在 着 著名 的 “贪心 ”算法 ， 即 所 谓 克 重 斯 卡尔 算法 

(Kruskal’s Algorithm), ° 下 面 是 关键 思想 的 非 形式 化 概述 g 18 © 


1. 利 用 树 中 到 目前 为 止 已 经 选择 的 任何 边 ， 记 录 每 个 顶点 所 属 的 ”图 10-1 一 个 图 ， 用 粗 线 


连通 分 支 。 开始 时 没有 选择 任何 边 ， 所 以 每 个 顶点 属于 由 自身 “表示 最 小 生成 树 


日 ”或 者 说 “计算 复杂 度 "。 一 一 译 者 注 
© J.B. Kruskal Jr, “On the shortest spanning subtree of a graph and the traveling salesman problem,” Proc. AMS 
7:1(1956), pp.48-50. 
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构成 的 连通 分 支 。 

2. 考虑 还 没有 考虑 过 的 权 最 小 的 边 ， 随 便 地 打破 平局 。 如 果 这 条 边 连 接 目前 属于 不 同 连 通 
分 支 的 两 个 顶点 ， 则 
(a) 为 生成 树 选择 这 条 边 ， 并且 
(b) 合并 所 涉及 的 两 个 连通 分 支 ， 把 其 中 一 支 所 有 顶点 的 分 支 号 改 成 与 另 一 支 的 分 支 号 相 

同 。 
另 一 方面 ， 如 果 所 选择 的 边 连 接着 同一 连通 分 支 的 两 个 顶点 ， 则 这 个 边 不 属于 生成 树 ， 这 
个 边 将 产生 回路 。 

3. 继续 考虑 边 ， 直 到 已 经 考虑 了 所 有 边 或 者 为 生成 树 选择 的 边 数 比 顶 点数 少 一 为 止 。 注 意 

在 后 一 种 情形 下 ， 所 有 顶点 一 定 属于 同一 连通 分 支 ， 可 停止 考虑 边 。 


例 10.1 ”在 图 10-1 的 图 中 ,首先 考虑 边 (1, 3)， 这 条 边 具 有 最 小 权 10。1 和 3 在 开始 时 属于 不 
同 分 支 ， 所 以 接受 这 条 边 ， 让 1 和 3 具有 相同 分 支 号 ， 比 方 说 “分 支 1"。 按 照 权 的 顺序 ， 下 一 条 
边 是 (2, 3)， 这 条 边 具有 权 12。2 和 3 属 不 同 分 支 ， 所 以 接受 这 条 边 并 把 顶点 2 合并 到 “分 支 1"。 第 
三 条 边 是 (1, 2)， 这 条 边 具有 权 15。 但 1 和 2 现在 属于 同一 连通 分 支 ， 所 以 拒绝 这 条 边 并 继续 处 理 
到 第 四 条 边 (3, 4)。4 不 属 “ 分 支 1"， 所 以 接受 这 条 边 。 现 在 4 个 顶点 的 图 的 生成 树 有 3 条 边 ， 所 以 
可 停止 。 o 


在 m 个 顶点 和 e 条 边 的 图 上 ， 有 可 能 在 O(m + e log e) 时 间 里 (用 计算 机 而 不 是 用 图 灵机 ) 来 
实现 这 个 算法 。 更 简单 且 更 易 理 解 的 实现 分 成 e 轮 来 进行 。 用 表 给 出 每 个 顶点 的 当前 分 支 。 在 
0O(e) 时 间 里 挑选 剩 下 的 最 小 权 边 ， 在 O(m) 时 间 内 找 出 这 条 边 连 接 的 两 个 顶点 的 分 支 。 如 果 这 两 
个 顶点 属于 不 同 分 支 ， 就 扫描 顶点 表 ， 在 O(m) 时 间 里 合并 具有 这 两 种 分 支 号 的 所 有 顶点 。 这 个 
算法 花费 Ole(e + m) 总 时 间 。 该 运行 时 间 是 输入 “规模 ”的 多 项 式 ， 输 入 规模 可 非 形式 化 地 取 
为 e 与 m 之 和 。 

把 上 述 想法 翻译 到 图 灵机 时 会 遇 到 几 个 问题 : 

“研究 算法 时 ， 遇 到 要 求 各 式 各 样 输出 的 “问题 "， 比 如 MWST 中 的 边 表 。 讨 论 图 灵机 时 ， 

只 能 认为 问题 是 语言 ， 仅 有 的 输出 为 yes 或 no， 即 接受 或 拒绝 。 例 如 ，MWST 问 题 可 用 语 
言 表达 成 :“ 给 定 这 个 图 G 和 限制 WW，G 是 否 具有 权 不 超过 W 的 生成 树 ? ”这 个 问题 似乎 比 
熟悉 的 MWST 问 题 更 容易 回答 ， 因 为 甚至 不 知道 生成 树 是 什么 。 但 是 在 难 解 性 理论 中 ， 一 
般 希 望 论证 问题 是 困难 的 而 不 是 容易 的 ， 问 题 的 “是 ~ 否 ” 版 本 是 困难 的 这 一 事实 就 蕴涵 
着 (必须 计算 完整 答案 的 ) 更 标准 的 版 本 也 是 困难 的 。 

“尽管 可 能 非 形式 化 地 认为 图 的 “规模 ”是 图 的 顶点 数 或 边 数 ， 但 TM 的 输入 是 有 穷 字母 表 
上 的 串 。 因 此 必须 适当 地 编码 诸如 顶点 和 边 这 样 的 问题 元 素 。 这 个 要 求 导致 图 灵机 的 输入 
一 般 比 输入 的 直观 “规模 ” 稍 长 一 些 。 但 有 两 个 理由 说 明 为 什么 这 个 差别 不 重要 
1) 图 灵机 输入 串 规模 与 非 形式 化 问题 输入 规模 之 间 的 差别 ， 从 来 不 会 超过 一 个 小 的 因子 ， 

通常 是 输入 规模 的 对 数 。 因 此 ， 凡 是 采用 一 种 度量 可 以 在 多 项 式 时 间 里 完成 的 ， 采 用 另 
一 种 度量 也 可 以 在 多 项 式 时 间 里 完成 。 
2) 表示 输入 的 串 的 长 度 ， 其 实 更 精确 地 度量 了 真实 计算 机 为 了 得 到 输入 而 不 得 不 读 的 字 池 
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数 。 例 如 ， 如 果 用 整数 来 表示 顶点， 则 表示 整数 所 需要 的 字 节 数 就 与 整数 规模 的 对 数 成 
比例 ， 而 不 是 “对 任何 顶点 都 用 1 个 字 节 "， 在 输入 规模 的 非 形式 化 说 明 里 可 能 是 这 样 设 


例 10.2 ”考虑 一 种 候选 编码 ， 来 表示 可 能 作为 MWST 问 题 输入 的 图 和 权限 制 。 编 码 有 五 种 
符号 : 0,1, AS, HS, BS. 
1. 把 从 1 到 mm 的 整数 分 配给 顶点 。 
2. 编码 从 二 进 制 的 m 值 和 二 进 制 的 权限 制 W 开 始 ， 用 逗号 分 隔 。 
3. 如 果 在 顶点 证 Wj 之 间 有 权 为 w 的 边 ， 则 在 编码 中 加 入 “(i,j, w)。 整 数 i,j, w 都 用 二 进 制 编码 。 
在 一 条 边 之 内 i 的 顺序 以 及 在 编码 中 边 的 顺序 都 是 无 关 紧 要 的 。 
因此 对 于 图 10-1 中 带 有 限制 W = 40 的 图 ， 一 种 候选 编码 就 是 
100, 101000(1, 10, 1111)(1, 11, 1010, )(10, 11, 1100)(10, 100, 10100)(11, 100, 10010) 口 


如 果 像 例 102 中 那样 表示 MWST 问 题 的 输入 ， 则 长 度 为 的 输入 至 多 可 表示 O(n / log niot. 
如 果 只 有 非常 少 的 边 ， 则 顶点 数 m 可 能 是 的 指数 。 但 除非 边 数 e 至 少 为 一 1， 否 则 无 论 是 些 什 
么 边 ， 图 都 不 可 能 连通 ， 因 此 没有 任何 MWST。 所 以 如 果 顶 点 数 达 不 到 至 少 与 n / log "成 比例 ， 
则 根本 没有 必要 运行 克 鲁 斯 卡尔 算法 ， 只 要 说 “ 否 ， 没 有 带 有 这 个 权 的 生成 树 ”。 

因此 ， 如 果 克 和 鲁 斯 卡尔 算法 的 运行 时 间 具 有 作为 m 和 e 的 函数 的 上 界 ， 比 如 上 面 得 出 的 
Ole(m+e)) 上 界 , 就 可 适当 地 把 m 和 e 都 换 成 ", 并 说 运行 时 间作 为 输入 长 度 n 的 函数 是 O(n(n + n), 
即 0(m)。 事 实 上 克 重 斯 卡尔 算法 的 更 好 的 实现 只 花费 O(n log n) 时 间 ， 不 过 这 里 没有 必要 关心 这 
个 改进 。 

当然 ,现在 是 用 图 灵机 作为 计算 模型 ， 而 我 们 描述 的 算法 本 来 打算 用 具备 有 用 数据 结构 
(比如 数组 和 指针 ) 的 程序 设计 语言 来 实现 。 但 是 可 以 断言 在 多 带 TM 上 能 在 O(n?) 步 之 内 实现 上 
述 克 鲁 斯 卡尔 算法 。 用 附加 的 带 做 以 下 几 项 工作 : 

1. 能 用 一 条 带 保存 顶点 及 其 当前 分 支 号 。 这 个 表 的 长 度 为 O(n)。 

2, 能 用 一 条 带 在 扫描 输入 带 上 的 边 时 ， 保 存 从 尚未 被 标记 “用 过 ”的 边 中 找到 的 当前 最 小 
权 边 。 可 能 用 输入 带 的 第 二 个 道 来 标记 算法 在 过 去 某 一 轮 中 所 选中 的 剩余 最 小 权 边 。 扫 
描 最 小 权 的 尚未 标记 边 ， 这 花费 O(n) 时 间 ， 因 为 每 条 边 只 考虑 一 次 ， 能 通过 线性 从 右 向 
左 扫 描 二 进 制 数 来 实现 权 的 比较 。 

3. 在 一 轮 中 选择 一 条 边 时 ， 把 这 条 边 的 两 个 端点 写 在 带 上 。 搜 索 顶 点 和 分 支 表 来 找 出 这 两 
个 端点 的 分 支 。 这 个 任务 花费 O(m) 时 间 。 

4. 当 找 到 一 条 边 连接 两 个 过 去 不 连通 的 分 支 时 ， 能 用 一 条 带 保存 正在 合并 的 两 个 分 支 斌 UV。 
然后 扫描 顶点 和 分 支 表 ， 凡 是 发 现 属于 分 支 的 项 点， 就 把 这 个 顶点 的 分 支 号 改 为 )。 这 个 
扫描 也 花费 O(m) 时 间 。 

应 当 能 够 就 此 完成 证 明 : 能 在 多 带 TM 上 在 O(a) 时 间 里 执行 一 轮 。 轮 数 e 至 多 为 mn， 所 以 结论 

是 : 在 多 带 TM_ 上 O() 时 间 就 足够 了 。 现 在 回忆 定理 8.10， 该 定理 说 : 凡是 多 带 TM 在 s 步 之 内 能 
做 到 的 ， 单 带 TM 在 O(s”) 步 之 内 也 能 做 到 。 因 此 ， 如 果 多 带 TM 花 费 O(m?) 步 ， 则 能 构造 单 带 TM 
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EO = O(n) 步 之 内 做 同样 事情 。 结论 是 : MWST 问 题 的 “是 -= 否 ”版 本 〈“ 图 G 是 否 具有 总 
权 不 超过 W 的 MWST”) RFP. 


10.1.3 非 确定 型 多 项 式 时 间 


难 解 性 研究 中 基本 的 问题 类 是 在 多 项 式 时 间 里 运行 的 非 确 定型 TM 能 解答 的 问题 。 形 式 化 地 
说 ， 如 果 存 在 非 确定 型 TM M 和 多 项 式 时 间 复 杂 性 7(n) 使 得 语言 L = LM)， 并 且 当 给 定 MM 长 度 为 n 
的 输入 时 ，M 没 有 移动 序列 超过 7(n) 步 ， 则 说 L 属 于 NP 类 ( 非 确定 型 多 项 式 )。 

第 一 个 事实 是 ， 因 为 每 台 确 定型 TM 都 是 从 来 也 不 选择 移动 的 非 确定 型 TM， 所 以 ?5 NP 
但 XP 似乎 包含 了 许多 不 属于 P 的 问题 。 直 觉 的 理由 是 在 多 项 式 时 间 里 运行 的 NTM 有 能 力 猜测 问 
题 的 指数 个 可 能 解 ， 并 在 多 项 式 时 间 里 “并 行 地 ”验证 每 个 解 。 无 论 如 何 : 

EBP = WP， 即 是 否 NTM 在 多 项 式 时 间 里 能 做 到 的 每 一 件 事情 事实 上 DTM 在 多 项 式 时 间 

(也 许 更 高 次 的 多 项 式 ) 里 也 能 做 到 ， 这 是 数学 中 最 深奥 的 未 解决 问题 之 一 。 





非 确定 型 接受 性 的 一 种 变化 


注意 ， 前 面 要 求 NTM 无 论 是 否 接受 ， 沿 着 所 有 分 支 都 在 多 项 式 时 间 内 停机 。 本 来 也 可 
以 只 在 那些 导致 接受 的 分 支 上 施加 多 项 式 时 间 限制 T(n)， 即 本 来 可 以 把 NP 定义 成 NTM 所 接 
受 的 使 得 如 果 NTM 接 受 ， 则 对 于 某 个 多 项 式 T(n)， 至 少 有 一 个 至 多 有 7T(n) 步 的 移动 序列 接 
受 的 语言 。 

但 是 ， 假 如 这 样 做 了 ， 也 还 是 得 到 同样 的 语言 类 。 因 为 如 果 知道 了 车 M 从 根本 上 说 接 
受 ， 则 M 在 T(n) 步 移动 之 内 接受 ， 那 就 可 以 修改 M， 在 其 带 上 一 个 独立 的 道上 计数 直到 7(n)， 
如 果 超 过 了 计数 7(m) 还 不 接受 就 停机 。 这 个 修改 过 的 M 可 能 花费 O(T?(n)) 步 ， 但 是 如 果 7T(n) 
是 多 项 式 时 间 ， 则 TR(m) 也 是 。 

事实 上 本 来 也 可 以 这 样 定义 ?， 对 于 某 个 多 项 式 T(n)， 通 过 在 时 间 7(n) 内 接受 的 TM 的 接 
受 性 。 这 些 TM 如 果 不 接 受 就 可 能 不 停机 。 但 是 通过 与 NTM 同 样 的 构造 ， 就 可 以 修改 DTM 
计数 直到 7(n)， 如 果 超 过 这 个 限度 就 停机 。 这 样 的 DTM 将 在 O(T3(m)) 时 间 内 运行 。 











10.1.4 NP RIF: 货 郎 问题 


为 了 感受 XP 的 能 力 ， 本 节 将 考虑 贷 郎 问题 (Traveling Salesman Problem, TSP), ， 这 个 问题 
似乎 属于 Ne 而 不 属于 2。TSP 的 输入 与 MWST 一 样 ， 是 边 上 带 有 整数 权 的 图 (如 图 10-1 所 示 ) 
和 权 的 限制 W。 询 问 的 问题 是 .图 是 否 具 有 总 权 至 多 为 W 的 “哈密 顿 回 路 "。 哈 密 顿 回路 是 把 顶 
点 连接 成 单个 回路 且 每 个 顶点 恰好 出 现 一 次 的 边 的 集合 。 注 意 ， 哈 密 顿 回路 的 边 数 一 定 等 于 图 
的 顶点 数 。 


例 10.3 ”图 10-1 中 的 图 其 实 只 有 一 条 哈密 顿 回路 : (1, 2, 4, 3, 1) 回路 。 该 回路 的 总 权 为 15 + 
20+18+10=63。 因 此 ， 若 W 是 63 或 更 大 ， 则 答案 为 “是 "， 若 W< 63， 则 答案 为 “ 否 ”。 
但 4 个 顶点 的 图 上 的 TSP 简 单 得 带 有 欺骗 性 ， 因 为 一 旦 考虑 到 同一 回路 可 在 不 同 顶点 处 开始 ， 
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并 考虑 到 周游 回路 的 方向 ， 就 决 不 会 存在 超过 3 条 的 不 同 哈密 顿 回路 。 在 有 m 个 顶点 的 图 中 ， 不 
同 的 回路 数 以 Om!) (m 的 阶乘 ) 的 速度 增长 ， 对 于 任何 常数 c，O(Un0 最 终 大 于 2e"。 口 


所 有 解答 TSP 的 方法 似乎 都 涉及 到 ， 在 本 质 上 尝试 所 有 回路 并 计算 回路 的 总 权 。 如 果 聪 明 的 
话 ， 就 能 消除 一 些 明 显 的 坏 的 选择 。 但 无 论 做 什么 ， 如 果 在 考虑 回路 的 顺序 上 缺乏 运气 ， 则 在 
确认 没有 满足 权限 制 W 的 回路 或 找到 这 样 的 回路 之 前 ， 似 乎 一 定 要 检查 指数 个 回路 。 

男 一 方面 ， 假 如 拥有 非 确定 型 计算 机 ， 就 能 猜测 项 点 排列 ， 计 算 按照 这 个 顺序 排列 的 顶点 
回路 的 总 权 。 假 如 存在 非 确定 型 真实 计算 机 ， 则 如 果 输入 长 度 为 x， 就 没有 分 支 会 使 用 超过 O(n) 
步 。 在 多 带 NTM 上 可 在 O(n”) 步 之 内 猜测 排列 并 在 类 似 时 间 里 检查 总 权 。 因 此 ， 单 带 NTM 在 至 多 
O(n 时 间 里 能 解答 TSP。 结 论 是 ，TSP 属 于 Np。 


10.1.5 多 项 式 时 间 归 约 


证 明 在 多 项 式 时 间 里 不 能 解答 问题 P。( 即 P; 不 属于 P) 的 主要 方法 是 : 把 已 知 不 属于 2 的 问 
题 PI 归 约 到 P, 上。 这 种 方法 已 在 图 8-7 中 提 过 ， 此 处 复制 下 来 作为 图 10-2。 


sa he res Ce> yes 


no 


图 10-2 重 绘 的 归 约 图 


假设 想 要 证 明 命题 “ 若 P 属 于 P， 则 PP 属 于 P"。 由 于 断言 Pi; 不 属于 P， 干 是 可 能 断言 Py 也 不 
属于 2。 但 仅仅 存在 图 10-2 中 标记 为 “构造 ”的 算法 还 不 足以 证 明 想 要 的 命题 。 

例如 ， 假 设 当 给 定 长 度 为 m 的 已 实例 时 ， 算 法 产生 长 度 为 2" 的 输出 串 ， 把 这 个 串 输入 到 假设 
中 的 多 项 式 时 间 的 P, 的 算法 中 。 如 果 这 个 判定 算法 在 O(n ) 时 间 里 运行 ， 则 在 长 度 为 2" 的 输入 上 
将 在 0(2w ) 时 间 里 运行 ， 这 个 时 间 是 m 的 指数 。 因 此 ， 当 给 定 长 度 为 m 的 输入 时 ，P 的 判定 算法 
花费 m 的 指数 时 间 。 这 些 事实 完全 与 P, 属 于 ?而 P 不 属于 2 的 情况 相 吻合 。 

即使 从 PP 实例 构造 P, 实 例 的 算法 总 是 产生 输入 规模 的 多 项 式 长 度 的 实例 ， 仍 然 可 能 得 不 到 
想 要 的 结论 。 例 如 ， 假 设 所 构造 的 P 实 例 与 P1 实 例 具有 相同 的 规模 m， 而 构造 算法 本 身 花费 m 的 
指数 时 间 ， 比 方 说 0(2") 时 间 。 现 在 ，P: 的 判定 算法 在 长 度 为 n 的 输入 上 花费 多 项 式 时 间 O(nt)， 
这 仅 蕴涵 着 存在 Pi 的 判定 算法 在 长 度 为 m 的 输入 上 花费 0(2" + me) 时 间 。 这 个 运行 时 间 界 考虑 了 
这 样 的 事实 ， 即 必须 完成 到 P; 的 变换 并 解答 所 得 到 的 P, 实 例 。 还 是 有 可 能 P; 属 于 2 而 Pi 不 属 
HF 

TEMP BLP LAE BE eA TERE: 这 个 变换 需要 输入 长 度 的 多 项 式 时 间 。 注 意 ， 如 





果 变换 在 长 度 为 m 的 输入 上 花费 OOw ) 时 间 ， 则 己 的 输出 实例 不 可 能 比 所 花费 的 步 数 还 长 ， 即 这 


日 ”这 句 话 有 点 不 准确 。 在 实践 中 ， 只 是 假设 P, 不 属于 P， 这 利用 了 Pl 是 “NP 完全 的 ”( 在 10.1.6 节 讨论 这 个 概念 ) 
这 个 非常 强 有 力 的 证 据 。 然 后 证 明 P 也 是 “NP 完全 的 "， 因 此 这 就 同样 强烈 地 提示 了 P; 不 属于 2, 
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个 实例 的 长 度 至 多 是 cm/，c 是 某 个 常数 。 现 在 可 以 证 明 : PRFP, WPF 

为 了 证 明 ， 假 设 在 O(nt) 时 间 里 能 判定 长 度 为 n 的 串 是 否 属于 P,。 于 是 在 Olmi + (cm ) *) 时 间 
里 能 判定 长 度 为 m 的 串 是 否 属于 Pl， m 这 一 项 对 应 于 做 变换 的 时 间 ，(cm 六 这 一 项 对 应 于 判定 所 
得 出 的 P, 实 例 的 时 间 。 化 简 这 个 表达 式 ， 可 以 看 出 在 O(mi + cm”) 时 间 里 能 解决 P,。 由 于 c, j,k 都 
是 常数 ， 所 以 这 个 时 间 是 m 的 多 项 式 ， 结 论 是 : PRFP 

因此 ， 在 难 解 性 理论 中 将 只 使 用 多 项 式 时 间 归 约 。 如 果 从 PI 到 Ps 的 归 约 花费 的 时 间 是 Pi 实例 
长 度 的 某 个 多 项 式 ， 则 这 个 归 约 是 多 项 式 时 间 的 。 注 意 ， 作 为 一 个 推论 ，P, 实 例 将 具有 Pi 实 例 
长 度 的 多 项 式 长 度 。 


10.1.6 NP 完全 问题 


下 面 将 遇 到 最 著名 的 属于 NP 而 不 属于 ?的 候选 问题 族 。 设 L 是 NP 中 的 一 个 语言 (问题 )。 
如 果 下 列 关于 L 的 命题 为 真 则 说 L 是 NP 完全 的 : 

1.L 属 于 Np。 

2. 对 于 NP 中 每 个 语言 L'， 都 存在 着 从 L 到 LL 的 多 项 式 时 间 归 约 。 

即将 看 到 ， 一 个 NP 完全 问题 的 例子 是 货 郎 问题 ， 货 郎 问题 在 10.1.4 节 中 介绍 过 。 由 于 似乎 
P 关 WP， 具体 地 说 ， 似 乎 所 有 NP 完全 问题 都 属于 Nr-P， 所 以 通常 认为 ， 一 个 问题 的 NP 完全 性 
证 明 就 是 这 个 问题 不 属于 2 的 证 明 。 

通过 证 明 每 个 多 项 式 时 间 NTM 的 语言 都 有 到 所 谓 SAT 问 题 的 多 项 式 时 间 归 约 ， 将 证 明 第 一 
个 NP 完全 问题 SAT (表示 布尔 可 满足 性 )。 但 是 ， 一 旦 有 了 一 些 NP 完 全 问题 ， 则 通过 使 用 多 项 
式 时 间 归 约 ， 把 某 个 已 知 NP 完 全 问题 归 约 到 新 的 问题 上 ， 就 能 证 明 新 的 问题 是 NP 完 全 的 。 下 列 
定理 说 明 为 什么 这 样 的 归 约 证 明 目 标 问题 是 NP 完全 的 。 


定理 10.4 。 若 P 是 NP 完全 的 ， 并 且 存 在 从 Pi 到 P; 的 多 项 式 时 间 归 约 ， 并 且 P; 属 于 NP， 则 PP 
是 NP 完全 的 。 

证 明 ”需要 证 明 NP 中 每 个 语言 -都 多 项 式 时 间 归 约 到 Ps。 已 知 存在 从 L 到 PI 的 多 项 式 时 间 归 
295 这 个 归 约 花 费 某 个 多 项 式 时 间 p(n)。 因 此 ，L 中 长 度 为 的 串 w 转 换 成 P1 中 长 度 至 多 为 p(n) 的 
Bx, 

还 已 知 存在 从 P 到 P, 的 多 项 式 时 间 归 约 ， 设 这 个 归 约 花费 多 项 式 时 间 q(m)。 于 是 这 个 归 约 至 
多 花费 q(p(n)) 时 间 把 x 变换 成 P, 中 某 个 串 y。 因 此 ， 从 w 到 y 的 变换 至 多 花费 p(n) + q9(p(m)) 时 间 ， 这 
个 时 间 是 多 项 式 的。 结论 是 : L 可 多 项 式 时 间 归 约 到 P,。L 可 能 是 Nz 中 任意 语言 ， 所 以 已 经 证 明 
NP 的 所 有 语言 都 多 项 式 时 间 归 约 到 P,， 即 Ps 是 NP 完全 的 。 口 


还 要 证 明 一 个 更 重要 的 关于 NP 完 全 问题 的 定理 : 如果 任何 一 个 NP 完全 问题 属于 P， 则 所 有 
Ne 问题 都 属于 P。 由 于 人 们 深信 ，XNP 中 有 许多 问题 不 属于 P， 因 此 就 把 一 个 问题 是 NP 完全 的 这 
样 的 证 明 当 作 这 个 问题 没有 多 项 式 时 间 算 法 ， 因 此 没有 好 的 计算 机 解法 的 同等 证 明 。 


定理 10.5 若 某 个 NP 完全 问题 P 属 于 P, 则 ?= XP。 
证 明 ”假设 P 既 是 NP 完全 的 又 属于 P。 则 XP 中 所 有 语言 都 在 多 项 式 时 间 里 归 约 到 P。 在 








434| 








Download at http://www.pinSi.com/ 


296 H10% 





10.1.5 节 中 曾 讨 论 过 ， 若 P 属 于 2， 则 大 属于 2。 o 





NP 难 问题 


有 些 问 题 L 是 如 此 地 困难 ， 以 致 于 虽然 能 证 明 NP 完全 性 定义 中 条 件 (2) (NP 中 每 个 语言 
都 在 多 项 式 时 间 里 归 约 到 L)， 但 不 能 证 明 条 件 (1): L 属 于 Nr。 如果 是 这 样 ， 就 称 [ 为 NP 难 
的 。 先 前 已 经 用 非 形式 化 术语 “ 难 解 的 ”来 指 似乎 需要 指数 时 间 的 问题 。 虽 然 在 原则 上 ， 
可 能 有 一 些 问题 需要 指数 时 间 ， 而 在 形式 化 意义 上 却 不 是 NP 难 的 ， 但 是 用 “ 难 解 的 ”来 表 
示 “NP 难 的 "， 这 是 被 普遍 接受 的 。 

证 明 Z 是 NP 难 的 ， 就 足以 证 明 苔 # 常 可 能 需要 指数 时 间或 更 糟糕 。 但 是 如 果 L 不 属于 NP, 
则 Z 明 显 的 困难 性 并 不 支持 论证 所 有 NP 完 全 问题 都 是 困难 的 也 就 是 说 ， 也 许 事实 是 P= Xp 
而 ZL 仍然 需要 指数 时 间 。 








其 他 的 NP 完全 性 概念 


NP 完全 性 研究 的 目标 其 实 是 定理 10.5， 也 就 是 说 ， 识 别 出 这 样 的 问题 了 P，P 在 2 类 中 出 
现 就 蕴涵 着 P= NWP。 前面 所 用 的 “NP 完全 ”的 定义 (通常 被 称 为 卡 普 完全 性 ， 因 为 R, 卡 普 
(R. Karp) 在 关于 本 主题 的 英 基 性 论文 中 首次 使 用 了 这 个 概念 ) 适合 于 描述 每 一 个 人 们 有 
理由 相信 它 满足 定理 10.5 的 问题 。 但 是 ， 存 在 着 其 他 更 宽泛 的 NP 完全 性 概念 ， 这 些 概 念 也 
允许 断言 定理 10.5。 

例如 ，S. 库 克 (S. Cook) 在 关于 本 主题 的 创始 性 论文 中 定义 了 : 如 果 给 定 问题 P 的 外 
部 信息 源 ( 即 在 一 个 单位 时 间 里 ， 能 回答 关于 给 定 串 是 否 属于 P 这 样 的 任意 问题 的 一 种 机 
制 )， 就 能 在 多 项 式 时 间 里 识别 NP 中 任意 语言 ， 那 么 问题 P 就 是 “NP 完全 的 "。 这 种 类 型 的 

完全 性 被 称 为 库 克 完全 性 。 在 某 种 意义 下 ， 卡 普 完 全 性 是 只 询问 外 部 信息 源 一 个 问题 的 
特殊 情形 。 但 是 ， 库 克 完全 性 还 允许 对 答案 取 反 ， 比 如 ， 可 能 询问 外 部 信息 源 一 个 问题 ， 
然后 把 外 部 信息 源 的 回答 的 否定 作为 答案 。 库 克 的 定义 的 一 个 后 果 是 : NP 完全 问题 的 补 问 
题 也 是 NP 完 全 的 。 像 本 书 这 样 ， 采 用 更 严格 的 卡 普 完全 性 的 概念 ， 就 能 在 11.1 节 中 ， 在 NP 
完全 问题 (在 卡 普 意义 下 ) 及 其 补 问题 之 间 做 出 重要 的 区 别 。 








10.1.7 习题 


习题 10.1.1 假设 对 图 10-1 中 边 的 权 进 行 如 下 修改 。 得 出 的 MWST 可 能 是 什么 ? 
* a) 把 (1,3) 边 上 的 权 10 改 成 25。 
b) 与 上 一 问 不 同 ， 把 (2, 4) 边 上 的 权 改 成 16。 
习题 10.1.2 ”如 果 修改 图 10-1 中 的 图 ， 在 顶点 1 和 4 之 间 增加 权 为 19 的 边 ， 则 最 短 哈 密 顿 回路 
是 什么 ? 
* 习题 10.1.3 “假设 存在 一 个 NP 完 全 问题 ， 这 个 问题 具有 花费 OOxesz) 时 间 的 确定 型 解法 。 注 
意 ， 这 个 函数 介 于 多 项 式 与 指数 之 间 ， 并 且 不 属于 这 两 类 函数 。 关 于 Xp 中 任意 问题 的 运行 时 间 ， 
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能 得 出 什么 结论 ? 


1 习题 10.1.4 ”考虑 这 样 的 图 : 顶点 都 是 边 长 为 m 的 n 维 立方 体 中 的 格 点 ， 即 顶点 都 是 向 量 (i， 


bys 如 )， 每 个 都 在 从 1 到 m 中 的 范围 中 。 在 两 个 顶点 之 间 有 边 ， 当 且 仅 当 这 两 个 顶点 恰好 在 一 
个 维度 上 相差 1。 例 如 ，n = 2 和 m = 2 的 情形 是 正方 形 ，n = 3 和 m = 2 的 情形 是 立方 体 ,，n = 2 和 m 
= 3 的 情形 如 图 10-3 所 示 。 其 中 有 些 图 有 哈密 顿 回路 ， 而 有 些 则 没有 。 
例如 ， 正 方形 显然 就 有 ， 立 方 体 也 有 ， 而 这 一 点 可 能 并 不 明显 ， 一 种 
可 能 是 (0, 0,0), (0,0, 1), ©, 1, 1), (0, 1,0), (1, 1,0), (1, 1, 1), (1,0, 1), (1, 
0,0) 并 返回 (0,0,0)。 图 10-3 没 有 哈密 顿 回 路 。 
a) EW], 图 10-3 没 有 哈密 顿 加 路。 提示: 考虑 一 下 ， 当 假设 的 哈密 
顿 回 路 通过 中 间 的 顶点 时 ， 将 出 现 什么 情况 》 这 条 回路 要 从 何 
处 来 ， 又 向 何 处 去 ， 才 能 不 从 哈密 顿 回路 上 切割 下 一 块 图 来 ? 
b) 对 于 哪些 n 和 m 值 ， 存 在 着 哈密 顿 回 路 ? 图 10-3 n=2 和 m=3 的 图 
! 习题 10.1.5 ”假设 采用 某 个 有 穷 字母 表 对 上 下 文 无 关 文法 进行 编 
码 。 考 虑 下 面 两 个 语言 : 
1.L = { (G, A, B) | G 是 (经 过 编码 的 ) CFG，A 和 B 是 G 的 (经 过 编码 的 ) 变 元 ， 且 从 A 和 B 
推导 出 的 终结 符号 串 的 集合 是 相等 的 }。 
2. La={ (G1,G2)1G1 和 G; 是 (经 过 编码 的 ) CFG, HELG) = L(G) }。 
回答 下 列 问题 : 
*a) 证 明 : 多 项 式 时 间 归 约 到 L。 
DHE: 多 项 式 时 间 归 约 到 ZL。 
*C) 关于 Li 和 Ls 是 NP 完全 的 或 者 不 是 ， 从 (a) 和 (b) 能 得 出 什么 结论 ? 
习题 10.1.6 2P 和 NP 作为 语言 类 都 有 某 些 封闭 性 。 证 明 : 2 对 下 面 每 种 运算 都 是 封闭 的 ， 
a) 反 转 。 
*#b) 并 。 
所 c) 连接 。 
!d) 闭 包 ( 星 号 )。 
6) 逆 同 态 。 
* 们 补 。 
习题 10.1.7 WP 对 于 习题 10.1.6 中 为 2 列举 的 每 种 运算 也 是 封闭 的 ， 其 中 有 一 个 〈 假 设 中 的 ) 
例外 : (O 补 。 还 不 知道 NP 对 于 补 是 否 封闭 ， 在 11.1 节 要 进一步 讨论 这 个 问题 。 证 明 : 习题 
10.1.6 中 从 (a) 到 (e) 对 于 NP 成 立 。 


10.2 NP 完全 问题 


现在 介绍 第 一 个 NP 完全 问题 。 通 过 把 任意 确定 型 多 项 式 时 间 TM 的 语言 归 约 到 可 满足 性 问 
题 上 ， 来 证 明 这 个 问题 (布尔 表达 式 是 否 是 可 满足 的 ) 是 NP 完全 的 。 


10.2.1 可 满足 性 问题 
布尔 表达 式 是 用 下 面 这 些 元 素来 建立 的 : 
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1. 布尔 值 变 元 ， 即 这 些 变 元 取 值 1 ( 真 ) 或 0 ( 假 )。 

2. 二 元 运算 符 和 信和 V ， 表 示 两 个 表达 式 的 逻辑 与 (AND) 和 逻辑 或 (OR)。 

3. 一 元 运算 符 ”， 表 示 远 辑 非 。 

4 给 运算 符 和 运算 对 象 分 组 的 括号 ， 必 要 时 改变 运算 的 默认 优先 级 : -最 高 ， 其 次 人 ， 最 
后 V。 


例 10.6 布尔 表达 式 的 一 个 例子 是 zx 人 -GOVz)。 只 要 变 元 ?或 变 元 z 为 真 ， 子 表达 式 (y Vz) 就 为 
真 ， 但 只 要 y 和 z 都 为 假 ， 这 个 子 表达 式 就 为 假 。 恰 好 当 yV z 为 假 ， 即 y 和 lz 都 为 假 时 ， 更 大 的 子 表 
RO V 3 为 真 。 如 果 y 和 z 有 一 个 为 真 或 两 个 都 为 真 ， 则 -~(Cy Vz) 为 假 。 

最 后 考虑 整个 表达 式 。 整 个 表达 式 是 两 个 子 表达 式 的 逻辑 与 ， 所 以 恰好 当 两 个 子 表达 式 都 
为 真 时 ,整个 表达 式 为 真 。 换 名 话说， 恰好 当 x 为 真 、y 为 假 且 为 假 时 ，x 伪 (y V z) 为 真 。 口 


给 定 的 布尔 表达 式 E 的 赋值 把 真 或 假 指派 给 E 中 出 现 的 每 个 变 元 。 给 定 赋值 7 后 ，E 的 值 记 做 
E(7)， 这 是 把 每 个 变 元 x 换 成 7 所 指派 的 值 7(x) ( 真 或 假 )， 并 对 E 求 值 的 结果 。 

如 果 E(7) = 1， 则 赋值 7 满足 布尔 表达 式 E， 即 赋值 7 让 表达 式 E 为 真 。 如 果 至 少 存 在 一 个 满足 
布尔 表达 式 E 的 赋值 7， 则 说 E 是 可 满足 的 。 


例 10.7 例 10.6 的 表达 式 x 人 ="yV 避 是 可 满足 的 。 已 经 看 出 ， 令 T(x) =1,7G) =0,7(z) =0， 这 
样 定义 的 赋值 满足 这 个 表达 式 ， 因 为 这 个 赋值 让 表达 式 的 值 为 真 (1)。 还 注意 到 ，7 是 这 个 表达 式 
的 惟一 可 满足 赋值 ， 因 为 这 三 个 变 元 的 其 余 七 种 组 合 都 让 表达 式 取 值 为 假 (0)。 

另 一 个 例子 ， 考 虑 表达 式 E = x 人 (mxVy) 人 -y。 断 言 E 是 不 可 满足 的 。 因 为 只 有 两 个 变 元 ， 
赋值 个 数 是 2 = 4， 所 以 容易 试验 所 有 这 四 种 赋值 ， 并 验证 对 于 所 有 这 些 赋值 ，E 的 值 都 为 0。 但 
是 ， 还 可 以 论证 如 下 。 仅 当 信 连接 的 三 个 项 都 为 真 ，E 才 为 真 。 这 意味 着 x 一定 为 真 〔 因 为 第 一 
项 )，y 一 定 为 假 (因为 最 后 一 项 )。 但 在 这 个 赋值 下 ， 中 间 项 -~x Vy 为 假 。 因 此 ，E 无 法 为 真 ， 事 
实 上 E 是 不 可 满足 的 。 

已 经 看 到 ， 表 达 式 恰好 有 一 个 可 满足 赋值 的 例子 ， 以 及 表达 式 没有 可 满足 赋值 的 例子 。 还 
有 许多 例子 ， 其 中 的 表达 式 有 多 于 一 个 可 满足 赋值 。 一 个 简单 的 例子 ， 考 虑 F = xV ny。 对 于 下 
面 三 个 赋值 ，F 的 值 是 1: 

1.7\@)=1; TO)=1。 

2. Tix) = 1; TO)=0。 

3. Tax) = 0; Ty) = 0, 

只 对 于 第 四 种 赋值 x= Oy = 1，F 才 取 值 0。 因 此 ，F 是 可 满足 的 。 口 


可 满足 性 问题 是 : 
“给 定 布尔 表达 式 ， 这 个 表达 式 是 可 满足 的 吗 ? 


一 般 将 把 可 满足 性 问题 称 为 SAT。 作 为 语言 来 说 ，SAT 问 题 是 (经 过 编码 的 ) 可 满足 布尔 表达 
式 的 集合 。 不 是 布尔 表达 式 的 有 效 编码 的 串 以 及 是 不 可 满足 的 布尔 表达 式 的 编码 的 串 ， 都 不 属 
于 SAT。 
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10.2.2 表示 SAT 实 例 


布尔 表达 式 中 的 符号 是 : 人 ，V ，”， 左 括号 ， 右 括号 ， 以 及 表示 变 元 的 符号 。 一 个 表达 式 
的 可 满足 性 不 依赖 于 这 些 变 元 的 名 称 ， 只 依赖 于 变 元 的 两 次 出 现 是 相同 的 变 元 还 是 不 同 的 变 元 。 
因此 ， 虽 然 在 例子 中 将 继续 采用 像 ? 或 z 以 及 x 这 样 的 变 元 名 称 ， 但 是 可 以 假定 变 元 是 zi xz, …。 
还 将 假定 ， 变 元 经 过 重新 命名 ， 以 采用 尽 可 能 小 的 变 元 下 标 。 例 如 ， 除 非 在 同一 个 表达 式 中 已 
经 用 过 了 wt 到 Xs， 否 则 就 不 应 当 使 用 xs。 

因为 在 原则 上 有 无 穷 多 个 符号 可 能 出 现在 布尔 表达 式 中 ， 所 以 又 遇 到 了 熟悉 的 问题 : 不 得 
不 设计 一 种 编码 ， 用 固定 的 有 穷 字母 表 来 表示 变 元 数 任意 大 的 表达 式 。 只 有 那样 ， 才 能 把 SAT 
当 作 “问题 ”来 谈论 ， 也 就 是 说 ， 把 SAT 当 作 固 定 字 母 表 上 的 语言 ， 由 可 满足 的 布尔 表达 式 的 
编码 来 组 成 。 将 要 采用 的 编码 如 下 : 

LGA, V, ~, (UR) 就 用 其 本 身 来 表示 。 

2. 变 元 x 表示 成 符号 x 后 面 跟着 用 二 进 制 表示 i 的 0 和 1。 
因此 ，SAT 问 题 (语言 ) 的 字母 表 只 有 8 个 符号 。 所 有 的 SAT 实 例 都 是 这 个 固定 的 有 穷 字母 表 上 
的 字符 串 。 


例 10.8 ”考虑 例 10.6 中 的 表达 式 * 人 ~(yV z)。 在 对 其 编码 过 程 中 第 一 步 是 把 变 元 换 成 带 下 标 
的 x。 因 为 它 有 三 个 变 元 ， 所 以 必须 使 用 xi, x25. AA UIE, yz 换 成 哪个 xi 具体 地 说 ， 设 
*=H，y = 为，Z= 为。 于 是 这 个 表达 式 变 成 w 人 -~(xa Vxa)。 这 个 表达 式 的 编码 是 

x1A>(x10V x11) 口 


注意 , 编码 过 的 布尔 表达 式 的 长 度 近 似 地 等 于 表达 式 中 的 位 置 数 ,每 次 变 元 出 现 算 作 1 个 位 置 。 
不 完全 相等 的 原因 是 :如 果 表达 式 有 m 个 位 置 ， 则 表达 式 可 有 O(m) 个 变 元 ， 所 以 给 变 元 编码 可 能 
花费 O(log mm) 个 符号 。 因 此 ， 长 度 为 m 个 位 置 的 表达 式 能 有 长 度 为 n= Oln log 四 个 符号 的 编码 。 

不 过 ， 在 m 与 m log m 之 间 的 差别 确实 不 超过 多 项 式 。 因 此 ， 如 果 仅仅 讨论 能 否 在 输入 规模 
的 多 项 式 时 间 里 解答 问题 ， 就 没有 必要 去 区 分 表达 式 的 编码 长 度 与 表达 式 的 自身 位 置 数 。 


10.2.3 SAT 问 题 的 NP 完 全 性 


现在 证 明 “ 库 克 定 理 "， 即 SAT 是 NP 完 全 的 事实 。 要 证 明 一 个 问题 是 NP 完 全 的 ， 首 先 需要 
证 明 这 个 问题 属于 Xz。 然 后 ， 必 须 证 明 Xe 中 每 一 个 问题 都 归 约 到 所 讨论 的 这 个 问题 上 。 一 般 
说 来 ， 第 二 部 分 证 明 是 通过 给 出 从 某 个 其 他 NP 完 全 问题 出 发 的 多 项 式 时 间 归 约 ， 然 后 引用 定理 
10.4 来 完成 的 。 但 此 时 此 刻 ， 还 不 知道 任何 NP 完 全 问题 可 用 来 归 约 到 SAT。 因 此 ， 能 采用 的 惟 
一 策略 就 是 原原本本 地 把 NP 中 每 一 个 问题 都 归 约 到 SAT 上 。 


定理 10.9 (EREM) SAT 是 NP 完全 的 。 

证 明 第 一 部 分 证 明 是 证 明 SAT 属 于 NP。 这 个 部 分 是 容易 的 : 

1. 利 用 NTM 的 非 确定 型 能 力 来 猜测 给 定 的 表达 式 E 的 赋值 。 如 果 编 码 过 的 E 长 度 为 *， 则 在 
多 带 NTM 上 O(nm) 时 间 就 是 够 了 。 注意， 这 个 NTM 有 多 种 移动 选择 ,而 且 在 猜测 过 程 结尾 ， 
可 到 达 多 至 2" 种 不 同 的 ID， 每 个 分 支 表示 对 不 同 赋值 的 猜测 。 








439 
































Download at http://www.pinSi.com/ 


300 #10 ¥ 





2. 在 赋值 T 下 对 E 求 值 。 如 果 E(7) = 1， 就 接受 。 注 意 ， 这 一 部 分 是 确定 型 的 。NTM 的 其 他 分 支 

可 能 不 导致 接受 ， 这 个 事实 不 影响 输出 ， 因 为 只 要 找到 一 个 可 满足 赋值 ， 这 台 NTM 就 接受 。 

在 多 带 NTM 上 ， 在 O(n”) 时 间 里 就 能 轻松 完成 求 值 。 因 此 ， 多 带 NTM 对 SAT 的 整个 识别 过 程 
花费 OU2) 时 间 。 转 换 成 单 带 NTM 可 能 让 时 间 平 方 ， 所 以 在 单 带 NTM 上 Or 时间 就 足够 了 。 

现在 ， 必 须 证 明 困难 的 部 分 : 如 果 L 是 NP 中 任意 语言 ， 则 有 从 L 到 SAT 的 多 项 式 时 间 归 约 。 

可 假定 存在 单 带 NTM M 和 多 项 式 p(n)， 使 得 M 在 长 度 为 n 的 输入 上 ， 沿 着 任何 分 支 都 花费 不 超过 


P(m) 步 。 而 且 ， 可 用 同样 的 方式 ， 对 NTM 证 明定 理 8.12 中 的 限制 条 件 ， 已 经 对 DTM 证 明 过 这 些 


条 件 。 因 此 ， 可 假设 M 从 不 会 写 下 空格 ， 也 从 不 会 把 带头 移 到 初始 带头 位 置 的 左 侧 。 

因此 ， 如 果 MW 接 受 输入 w， 且 Ilwl =n， 则 存在 M 的 移动 序列 ， 使 得 

1. m 是 M 在 输入 w 上 的 初始 ID 。 

2. am Far: 上 mw， 其 中 k<P(nD。 

3. qu 是 带 有 接受 状态 的 ID。 

4. 每 个 a 只 包含 非 空 格 符 ( 除 非 @ 以 状态 和 空格 结尾 )， 并 且 从 初始 带头 位 置 (最 左 输入 符 
号 ) 向 右 方 延伸 。 

这 里 的 策略 可 以 小 结 如 下 : 

8) 可 以 把 每 个 a 写成 符号 序列 XoXu…Xi pw。 其 中 一 个 符号 是 状态 ， 其 他 符号 都 是 带 符号 。 
依照 惯例 ， 假 定 状态 和 带 符号 是 不 相交 的 ， 所 以 能 区 分 出 哪个 Xy 是 状态 ， 因 此 能 区 分 出 
带头 位 置 。 注 意 ， 没 有 理由 去 表示 在 带 上 前 p(n) 个 符号 (这些 符号 加 上 状态 就 组 成 长 度 为 
pin) + 1 的 ID) 右边 的 符号 ， 如 果 保证 让 M 在 p(n) 步 或 更 少 步 移动 之 后 停机 ， 则 这 些 
符号 不 可 能 影响 M 的 移动 。 

b) 为 了 用 布尔 变 元 来 描述 ID 序列 ， 创 造 变 元 yw 表示 命题 Xy = A。 在 这 里 ，i 和 jj 都 是 0 到 p(n) 
范围 内 的 整数 ，A 是 带 符号 或 状态 。 

9 把 “ID 序列 表示 接受 输入 w” 这 样 的 条 件 表示 成 布尔 表达 式 ， 这 个 表达 式 是 可 满足 的 当 且 
仅 当 M 通 过 至 多 p(n) 步 的 移动 序列 来 接受 w。 可 满足 赋值 将 是 关于 这 些 ID“ 说 真 话 ” 的 赋 
值 ， 即 yy 为 真 当 且 仅 当 Xy= 4A。 为 了 确保 从 L(M) 到 SAT 的 多 项 式 时 间 归 约 是 正确 的 ， 把 这 
个 表达 式 写成 是 说 计算 : 

i 正确 开始 。 也 就 是 说 ， 初 始 ID 是 gow 后 面 跟着 空格 。 

i. 下 一 步 移动 是 正确 的 ( 即 这 步 移动 正确 地 遵循 TM 的 规则 )。 也 就 是 说 ， 每 个 后 继 ID 都 
是 从 前 面 的 ID 根 据 M 合 法 移动 的 一 种 可 能 而 得 出 的 。 

这. 正确 结束 。 也 就 是 说 ， 存 在 某 个 ID 是 接受 状态 。 

在 精确 地 构造 这 个 布尔 表达 式 之 前 ， 必 须 介绍 几 个 细节 。 

“首先 ,过 去 规定 当 结尾 的 无 穷 长 空格 开始 时 ，ID 就 结束 。 但 是 ， 当 模拟 多 项 式 时 间 计算 时 ， 
认为 所 有 ID 都 有 同样 的 长 度 p(n) + 1， 这 样 更 加 方便 。 因 此 ， 在 ID 中 可 能 出 现 结尾 的 空格 。 

“其 次 ， 假 定 即使 早 就 已 经 接受 了 ， 所 有 计算 也 都 持续 恰好 p(n) 步 (因此 有 p(n) + 1 个 ID)， 
这 样 更 加 方便 。 因 此 允许 带 有 接受 状态 的 ID 成 为 自身 的 后 继 。 也 就 是 说 ， 如 果 c 有 接受 状 
态 ， 则 允许 “移动 ”a 上 wa。 因此， 可 以 假定 ， 如 果 存 在 接受 计算 ， 则 amw 将 有 接受 ID， 
而 这 正 是 对 于 “正确 结束 ”条 件 必须 核对 的 全 部 内 容 。 
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图 10-4 提 示 了 MW 的 多 项 式 时 间 计算 看 起 来 像 什么 。 行 对 应 于 ID 序列 ， 列 是 在 计算 中 能 使 用 的 
带 单元 。 注 意 ， 图 10-4 中 的 方 格 数 是 (p(n) + D?。 而 且 ， 表 示 每 个 方 格 的 变 元 个 数 是 有 穷 的 ， 只 
依赖 于 M， 变 元 数 是 M 的 状态 数 和 带 符号 数 之 和 。 
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图 10-4 构造 出 单元 (或 D 成 分 ) 的 阵列 

现在 给 出 从 M 和 w 构 造 布 尔 表达 式 Ev. 的 一 个 算法 。Ew. 的 总 体形 式 是 UASANAF， 其 中 5， 
N, 是 说 M 正 确 开 始 、 正 确 移动 和 正确 结束 的 表达 式 。U 表 示 每 个 单元 格 有 惟一 的 符号 。 

惟一 

U 是 所 有 形 如 Oya Aye) 的 项 的 合 取 ， 其 中 a 关 B。 注 意 ， 这 些 项 的 数量 是 O(p*(n))。 

正确 开始 

Xo 一 定 是 M 的 初始 状态 9o，Xo 到 Xo 一 定 是 w (其 中 "是 w 的 长 度 ) ， 其 余 的 Xo 一定 是 空格 B。 
也 就 是 说 ， 如 果 w = aasa, M: 

S = Yoog A Yora, A Yoza, A *** A Yona, À Yo, ne1,B A Yo, ns2,8 A *** A yo.pn.8 

的 确 ， 给 定 M 的 编码 并 且 给 定 w， 就 能 在 多 带 TM 的 第 二 条 带 上 在 O(p(n)) 时 间 里 写 出 5。 

正确 结束 

因为 假设 接受 ID 永远 重复 下 去 ， 所 以 M 接 受 就 等 于 在 axw 中 找到 接受 状态 。 记 住 ,假定 M 是 
如 果 接 受 就 在 p(m) 步 之 内 接受 的 NTM。 因 此 ，F 是 表达 式 F 的 逻辑 或 ，j = 0,1, …, pi), Fik 
XzmJj 是 接受 状态 。 也 就 是 说 ， 万 是 yprmja V Yoja V = V Ysa 其 中 an az, =, a 是 M 的 全 部 接 
受 状态 。 于 是 ， 

F=FPoVF\V * VF xa) 

BAFER, XA RTM, LAA RPMI A wien. Ae, FKE 

为 0(n)。 更 重要 的 是 ， 给 定 M 的 编码 和 输入 w， 写 出 F 的 时 间 是 n 的 多 项 式 ， 实 际 上 ， 能 在 多 带 
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TM 上 在 O(p(n)) 时 间 里 写 出 F。 
下 一 步 移动 是 正确 的 


保证 M 的 移动 是 正确 的 ， 这 是 目前 为 止 最 复杂 的 部 分 。 表 达 式 N 将 是 表达 式 Ni 的 逻辑 与 ，i 
=O, 1,…, p(m) 一 1， 每 个 Ni 将 设计 成 保证 ID w+*, 是 于 允许 跟 在 aw 后 面 的 ID 之 一 。 为 了 开始 解释 如 
何 写 出 W， 观 察 一 下 图 10-4 中 的 符号 入 ++s 总 是 可 以 根据 下 列 内 容 来 确定 区 

1 AEX: +1.) EMIS MIBK j, Xp, Xi 以 及 

2. NTM M 具 体 的 移动 选择 (如 果 这 些 符号 之 一 是 a 的 状态 )。 

我 们 将 把 Ni 写成 表达 式 hy V By 的 合 取 (人 )， 其 中 j=0, 1,…, p(n)。 

À FUERA: 

a) a REE (ERE), 并 且 

b) 存在 M 的 移动 选择 ERX BARA, Xi). 是 扫描 的 符号 ) EEH, 六 

KuKi 变换 成 % Xissiy 注意 ， 如 果 双 是 接受 状态 ， 则 存在 根本 不 移动 的 “ 选 
择 "， 所 以 所 有 后 继 的 ID 都 等 于 第 一 次 导致 接受 的 那个 ID。 

* 表 达 式 By 说 : 

a) a 的 状态 不 在 位 置 /( 即 不 是 状态 )， FEEL 

b) 如 果 a 的 状态 不 是 邻近 位 置 i( 即 Xj- 1 和 Xj,1 都 不 在 状态 ) 时 ， 则 Xi,1 Xyo 

注意 ， 当 状态 邻近 位 置 j 时 ，Aij- BRA.) 都 关系 到 位 置 j 的 正确 性 。 

By 写 起 来 更 容易 。 设 q, qo =, qn 是 M 的 状态 ， 并 设 Z1, 乙 ,…, 是 带 符 号 。 于 是 ; 

By= Yujra VY Vt VA tag) V 

Orra Vise V V1.4) V 

(Orsz Viz V = V Visz) A 

(Orsz Yini) V Ges A Yergz) VV Orsz, My) 
By HIKI ERIE a KRASE BR, BAER, By E4 — RERE a 的 状态 在 位 置 /时 ， 
为 假 ， 而 且 N 的 真 仅 依赖 于 4, 是 真 ， 也 就 是 移动 是 合法 的 。 当 状态 离 位 置 ;至 少 两 个 位 置 距离 
时 ， 后 两 行 保证 符号 不 变 。 最 后 一 行 说 Xi = %, 1,j， 这 是 通过 枚 举 所 有 可 能 的 带 符号 z， 并 且说 
ELEZ, ELEZ, GF, 

有 两 个 重要 的 特殊 情形 : j = ORY = pln), EPN RA ETEY TEBE 
有 变 元 w+ xxs 但 已 知 带头 从 不 移 到 初始 位 置 的 左边 ， 且 已 知 带头 没有 时 间 移 到 初始 位 置 右边 超 
过 p(m) 个 单元 。 因 此 ， 可 从 Bo 和 Bi 中 删除 一 些 项 ， 把 这 个 化 简 留 给 读者 来 做 。 

现在 ,考虑 表达 式 4y。 这 些 表达 式 反映 出 在 图 10-4 的 阵列 中 ，2 x SFP BIIEX, 5, Xp Xj 41， 
Kisii Kisin 六 rui 中 的 所 有 可 能 的 关系 。 如 果 : 

LUERE, X MX ERS. 

2. 存在 M 的 一 种 移动 ， 这 个 移动 解释 Xj-1XyXij,1 如 何 变 成 

LD Kis ijer 
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因此 只 有 有 穷 多 种 从 符号 到 这 六 个 变 元 的 赋值 是 有 效 的 。 设 4 是 一 些 项 的 逻辑 或 ， 每 项 对 应 着 
构成 有 效 赋值 的 一 组 六 个 变 元 。 
例如 ， 假 设 M 的 一 种 移动 来 自 于 5(q, 4) 包 含 (p, C, 了 DD 这 个 事实 。 设 D 是 M 的 某 个 带 符号 。 于 是 
一 种 有 效 赋值 是 XiXyXijs1 = DGAFIXs +1, -1Xi0 1 Xie ije = PpDC。 注 意 ， 这 个 赋值 如 何 反 映 出 由 
M 如 此 移动 所 引起 的 ID 中 的 变化 。 反 映 这 种 可 能 性 的 项 是 : 
V-DAY NV+ ANYiereHie 人 AND 人 WarUjisuc 
如 果 与 上 面 不 同 ，6(q, 4) 包 含 (p, C, R) ( 即 移动 是 同样 的 ， 但 带头 向 右 移动 )， 于 是 相应 的 有 效 赋 
值 是 XiXyXijr1 = D44 和 Xi= DCP。 则 对 应 的 有 效 赋值 是 : 
Yarro NYig NYA NYisipa o NYisigeNYisijenp 
Ay EA AROE. Ej = OF = P(m) 的 特殊 情形 里 ， 必 须 像 对 有 那样 进行 一 些 修改 ， 
以 反映 出 不 存在 变 元 wz， 其 中 j < 0 或 j> p(n)。 最 后 ， 
Ni = ( Ao V Bo ) A( An V Ba ) A + A( Aipim V Bipin ) 


TA 
N=NoANA…A 人 No- 


虽然 如 果 M 有 许多 状态 并 且 (或 者 ) 有 许多 带 符号 ， 则 Ay 和 By 可 以 非常 大 ， 但 是 仅 就 输入 w 
的 长 度 而 言 ，Ay 和 Bi 的 规模 是 常数 ， 也 就 是 说 ，Ay 和 Bi 的 规模 与 w 的 长 度 n 无 关 。 因 此 和 Ni 的 长 度 
是 O(p(m))，N 的 长 度 是 O(p*(m))。 更 重要 的 是 ， 可 以 在 与 N 的 长 度 成 比 的 时 间 里 ， 在 多 带 TM 的 一 
条 带 上 写 FN， 这 个 时 间 量 是 w 的 长 度 n 的 多 项 式 。 


库 克 定理 证 明 的 总 结 


虽然 已 经 把 表达 式 
Euw=UASANAF 


的 构造 描述 成 了 M 和 w 的 函数 ， 但 是 事实 上 ， 只 有 “正确 开始 ”部 分 3 依赖 于 w， 而 且 是 以 一 种 
简单 的 方式 来 依赖 的 (w 是 在 初始 ID 的 带 上 )。 其 他 部 分 N 和 F 只 依赖 于 M 和 n，n 是 w 的 长 度 。 
因此 ， 对 于 在 某 个 多 项 式 时 间 p(m) 里 运行 的 任何 NTM M 来 说 ， 都 能 设计 一 个 算法 ， 这 个 算 
法 获得 长 度 为 "的 输入 ， 产 生出 Ew..。 这 个 算法 在 多 带 确定 型 TM 上 的 运行 时 间 是 O(p?(m))， 而 
这 个 多 带 TM 可 以 转化 成 在 O(p*(n)) 时 间 里 运行 的 单 带 TM。 这 个 算法 的 输出 是 布尔 表达 式 Ew w 
Eu.» 是 可 满足 的 当 且 仅 当 M 在 O(p(n)) 步 移动 之 内 接受 w。 口 


为 了 强调 库 克 定理 10.9 的 重要 性 ， 我 们 来 看 看 定理 10.5 如 何 对 库 克 定理 起 作用 。 假 如 SAT 有 
确定 型 TM， 它 在 多 项 式 时 间 (比如 说 q(n) 时 间 ) 里 识别 SAT 的 实例 。 于 是 对 于 在 多 项 式 时 间 p(n) 
里 接受 的 NTM M 所 接受 的 每 个 语言 都 将 被 DIM 在 确定 型 多 项 式 时 间 里 所 接受 ， 图 10-5 提 示 这 个 
DTM 是 如 何 操作 的 。M 的 输入 w 转 化 成 布尔 表达 式 Ew.,。 把 这 个 表达 式 输入 到 SAT 的 检验 程序 ， 
无 论 这 个 检验 程序 关于 Ew 怎样 回答 ， 图 10-5 的 算法 关于 w 都 会 照样 回答 。 
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4 的 多 项 式 SATS, yes 
时 间 转化 程序 判定 程序 


图 10-5 如 果 SAT 属 于 P， 则 以 这 种 方式 设计 的 DTM 就 能 证 明 NP 中 每 个 语言 都 属于 2 


10.2.4 习题 


习题 10.2.1 下 列 布尔 表达 式 有 多 少 种 可 满足 赋值 ? 哪些 布尔 表达 式 属于 SAT? 
*a)xAQV™AGV-y), 

b) @VYACEVAVCZA-y). 

! 习 题 10.2.2 假设 G 是 四 个 顶点 1,2, 3,4 的 图 。 设 对 于 1<i<j<4， 如 是 命题 变 元 ， 把 zy 解释 
成 说 “在 顶点 ;和 j 之 间 存在 一 条 边 "。 在 这 四 个 顶点 上 的 任何 图 都 能 表示 成 赋值 。 例 如 ， 图 10-1 
中 的 图 表示 成 ， 让 x 为 假 而 其 他 三 个 变 元 为 真 。 能 把 只 涉及 到 边 的 存在 或 不 存在 的 任何 性 质 都 
表示 成 布尔 表达 式 ， 这 个 布尔 表达 式 为 真 当 且 仅 当 对 变 元 的 赋值 描述 了 具有 这 个 性 质 的 图 。 写 
出 下 面 这 些 性 质 的 表达 式 : 

*# a) G 有 哈密 顿 回路 。 

b) G 是 连通 的 。 

9 G 包 含 规模 为 3 的 团 ， 也 就 是 说 ， 有 三 个 顶点 ， 使 得 在 其 中 任何 两 个 之 间 有 一 条 边 ( 即 图 
中 的 三 角形 )。 

d) G 至 少 包含 一 个 孤立 点 ， 也 就 是 说 ， 有 一 个 没有 边 的 顶点 。 


10.3 约束 可 满足 性 问题 


现在 计划 证 明 范围 广泛 形式 多 样 的 问题 (比如 在 10.1.4 节 提 到 过 的 TSP 问 题 ) 是 NP 完全 的 。 
在 原则 上 ， 通 过 找 出 从 SAT 问 题 到 所 关注 的 每 个 问题 的 多 项 式 时 间 归 约 来 完成 这 个 证 明 。 但 是 ， 
有 一 个 重要 的 中 间 问 题 ， 称 为 “3SAT”， 这 个 问题 比 SAT 更 容易 归 约 到 典型 问题 上 。3SAT 仍 然 
是 关于 布尔 表达 式 可 满足 性 的 问题 ， 但 这 些 表达 式 具有 非常 规则 的 形式 : 这 些 表达 式 是 “ 子 句 ” 
的 逻辑 与 《AND)， 每 个 子 句 恰好 是 三 个 变 元 或 否定 变 元 的 逻辑 或 (OR)。 

本 节 介 绍 关于 布尔 表达 式 的 一 些 重要 术语 。 然 后 把 任意 表达 式 的 可 满足 性 归 约 到 具有 3SAT 
问题 范式 的 表达 式 的 可 满足 性 。 有 趣 的 是 ， 注 意 ， 每 一 个 布尔 表达 式 E 都 具有 3SAT 问 题 范 式 形 
式 的 等 价 表达 式 F， 但 F 的 规模 可 能 是 E 的 规模 的 指数 。 因 此 ， 从 SAT 到 3SAT 的 多 项 式 时 间 归 约 ， 
光 须 比 简单 的 布尔 代数 处 理 更 加 精致 。 需要 把 SAT 中 每 个 表达 式 E 转 化 成 3SAT 范 式 形式 的 另 一 个 
表达 式 F。 但 F 不 一 定 等 价 于 E。 只 能 保证 ，F 是 可 满足 的 当 且 仅 当 E 是 可 满足 的 。 


10.3.1 布尔 表达 式 的 范式 
下 面 是 三 个 重要 的 定义 : 
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.文字 就 是 变 元 或 否定 变 元 。 例 如 ，x 和 -y。 为 了 节省 空间 ， 通 常用 上 划 线 了 来 代替 -这 样 

的 文字 。 

。 子 名 就 是 一 个 或 多 个 文字 的 逻辑 或 (OR)。 例 如 ，x*，xVy 和 REV Vz. 

。 如 果 布尔 表达 式 是 子 名 的 逻辑 与 (AND) ， 就 说 这 个 表达 式 是 合 取 范式 。 (或 CNF)。 
为 了 进一步 压缩 写 出 的 表达 式 ， 将 采用 另 一 种 记号 ， 把 V 当 作 加 法 使 用 + 运算 符 ， 把 人 当 作 乘 
法 。 对 于 乘法 ， 如 同 在 正则 表达 式 中 对 于 连接 那样 ， 通 常 使 用 并 置 ， 即 没有 运算 符 。 于 是 也 自 
然 把 子 句 称 为 “文字 之 和 ”并 把 CNF 表 达 式 称 为 “ 子 句 之 积 ”。 


例 10.10 ”采用 压缩 记号 ,表达 式 (rxV DAV) 将 写成 (x + YE + 四 。 由 于 该 表达 式 是 
FAE 习 和 (+a 的 逻辑 与 ( 积 )， 所 以 该 表示 式 是 CNF。 

表达 式 (x+yz)(x+y+z)(y +z) 不 是 CNF。 这 个 表达 式 是 三 个 子 表达 式 (tye), (x+y +2) 
和 (y+ 如 的 逻辑 与 。 最 后 两 个 子 表达 式 是 子 句 ， 但 第 一 个 子 表达 式 不 是 子 句 ， 这 个 子 表达 式 是 


一 个 文字 与 两 个 文字 之 积 的 和 。 
表达 式 xyz 是 CNF。 回 忆 一 下 , 子 名 可 能 只 有 一 个 文字 。 因 此 ， 这 个 表达 式 是 三 个 子 句 (x)， 
0), OZR. o 


如 果 表 达 式 是 这 样 一 些 子 句 之 积 ， 每 个 子 句 是 恰好 k 个 不 同文 字 之 和 ， 则 说 这 个 表达 式 是 k 
合 取 范式 (ECNF)。 例 如 ，(x+ (7+z)(z+ 习 是 2-CNF， 因 为 每 个 子 句 恰好 有 两 个 文字 。 

所 有 这 些 在 布尔 表达 式 上 的 限制 ， 都 分 别 导致 关于 带 有 这 些 限制 的 表达 式 的 可 满足 性 问题 。 
因此 ， 我 们 将 要 讨论 下 列 问 题 : 

“CSAT 是 这 样 的 问题 ; 给 定 具 有 CNF 形 式 的 布尔 表达 式 ， 这 个 表达 式 是 可 满足 的 吗 ? 

*kSAT 是 这 样 的 问题 给 定 具有 k-CNF 形 式 的 布尔 表达 式 ， 这 个 表达 式 是 可 满足 的 吗 ? 

将 要 看 到 ，CSAT、3SAT 以 及 所 有 k 大 于 3 的 kSAT 都 是 NP 完全 的 。 但 是 ，1SAT 和 2SAT 有 线性 
时 间 算 法 。 





处 理 坏 输入 


每 个 已 经 讨论 过 的 问题 (SAT，CSAT，3SAT， 等 等 )， 都 是 在 8 个 符号 的 固定 字母 表 上 
的 语言 ， 这 些 语 言 的 串 有 时 候 可 以 解释 成 布尔 表达 式 。 不 解释 为 布尔 表达 式 的 串 都 不 可 能 
属于 SAT 语 言 。 同 样 ， 当 考虑 限制 形式 的 表达 式 时 ， 那 些 虽然 是 合式 布尔 表达 式 但 不 是 限 
制 形式 表达 式 的 串 ， 都 不 属于 这 些 语言 。 因 此 ， 举 例 来 说 ， 如 果 输入 的 布尔 表达 式 是 可 满 ， 
足 的 但 不 是 CNE 形 式 的 ， 则 判定 CSAT 问 题 的 算法 将 回答 “ 否 "。 











10.3.2 把 表达 式 转化 成 CNF 


如 果 在 变 元 的 任何 赋值 上 两 个 表达 式 都 有 同样 的 结果 ， 则 说 这 两 个 布尔 表达 式 是 等 价 的 。 
如 果 两 个 表达 式 是 等 价 的 ， 则 肯定 要 么 都 是 可 满足 的 ， 要 么 都 不 是 可 满足 的 。 因 此 ， 把 任意 表 
达 式 转化 为 等 价 的 CNF 表 达 式 是 开发 从 SAT 到 CSAT 的 多 项 式 时 间 归 约 的 有 希望 的 方法 。 这 个 归 


日 “AR EHH (AND, A) 的 奇特 说 法 。 
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约 可 能 证 明 CSAT 是 NP 完 全 的 。 

但 是 ， 事 情 并 非 如 此 简单 。 虽 然 可 以 把 任何 表达 式 转化 为 CNF， 但 是 这 个 转化 可 能 花费 超 
过 多 项 式 时 间 。 具 体 地 说 ， 这 个 转化 可 能 让 表达 式 长 度 有 指数 增长 ， 因 此 肯定 要 花费 指数 时 间 
来 产生 输出 。 

幸运 的 是 ， 把 任意 布尔 表达 式 转化 为 具有 CNF 形 式 的 表达 式 ， 对 于 把 SAT 归 约 到 CSAT， 
因此 证 明 CSAT 是 NP 完 全 的 来 说 ， 只 是 可 能 的 方式 之 一 。 不 得 不 做 的 全 部 事情 是 : 输入 SAT 实 
例 E， 把 E 转 化 为 CSAT 实 例 F， 使 得 F 是 可 满足 的 当 且 仅 当 E 是 可 满足 的 。 没 有 必要 让 E 和 F 是 等 
价 的。 甚至 没有 必要 让 E 和 F 具 有 同样 的 变 元 集合 ， 事 实 上 ， 在 一 般 情况 下 ，F 的 变 元 是 E 的 变 
元 的 超 集 。 

从 SAT 到 CSAT 的 归 约 将 包括 两 个 部 分 。 第 一 步 ， 把 所 有 的 ~ 沿 着 表达 式 树 往 下 推 ， 使 得 否 
定 只 出 现在 变 元 前 面 ， 即 布尔 表达 式 变 成 文字 的 逻辑 与 和 逻辑 或 。 这 个 变换 产生 等 价 的 表达 式 ， 
花费 的 时 间 至 多 是 表达 式 规模 的 平方 。 在 常规 计算 机 上 ， 如 果 仔 细 地 设计 数据 结构 ， 这 个 变换 
只 花费 线性 时 间 。 

第 二 步 是 写 出 一 个 表达 式 ， 这 个 表达 式 作为 一 些 子 句 之 积 ， 是 文字 的 逻辑 或 的 逻辑 与 ， 即 
把 这 个 表达 式 写成 CNF 形 式 。 通 过 引入 一 些 新 的 变 元 ， 可 以 在 给 定 表达 式 的 规模 的 多 项 式 时 间 
里 完成 这 个 变换 。 在 一 般 情况 下 ， 新 的 表达 式 F 将 不 等 价 于 旧 的 表达 式 E。 但 是 ，F 是 可 满足 的 
当 且 仅 当 E 是 可 满足 的 。 更 具体 地 说 ， 如 果 7 是 使 E 为 真 的 赋值 ， 则 存在 7 的 扩展 (如 5) 使 为 
真 ， 如 果 $ 和 7 把 同样 的 值 赋 给 每 一 个 7 赋 过 值 的 变 元 ， 则 说 9 是 7 的 扩展 ， 但 5 还 可 以 给 7 没有 涉及 
到 的 变 元 赋值 。 

第 一 步 是 把 " 推 到 入 和 V 之 后 。 所 需要 的 规则 是 : 

1. (EAF) = ~E) V A(F)。 这 条 规则 ( 德 ， 摩 根 律 中 的 一 条 ) 允许 把 - 推 到 信之 后 。 注 意 ， 

副作用 是 把 人 变 成 V 。 
2. AEV F) = (CE) ACF), XRH ( 德 ， 摩 根 律 中 的 另 一 条 ) 把 - 推 到 V 之 后 。 副 作用 是 
把 V 变 成 人 。 
3. E) 一 E。 这 条 双重 否定 律 消除 作用 在 同一 个 表达 式 上 的 一 对 ~。 


例 10.11 考虑 表达 式 巨 = -((-(x+y))(x+y) 。 注 意 ， 使 用 了 两 种 记号 的 混合 ， 当 被 否定 的 
表达 式 不 是 单个 变 元 时 ， 就 明确 地 使 用 -运算 。 图 10-6 说 明 一 






表达 式 规则 
些 步 艰 ， 在 这 些 步 对 中 把 表达 式 E 中 所 有 - 往 后 推 ， 直 到 这 些 ” 一 J 
成 为 文字 的 一 部 分 。 Ca +y) +E] a) 


最 后 的 表达 式 等 价 于 原来 的 表达 式 并 且 是 文字 的 “与 或 ab Sa 2 
表达 式 。 这 个 表达 式 可 进一步 化 简 为 表达 式 x* + y， 但 是 对 于 pa > g 
断言 能 把 每 个 表达 式 改写 成 "只 出 现在 文字 中 来 说 ， 这 个 化 简 ”图 10-6 把 - 沿 表达 式 树 往 后 推 ， 使 


并 不 是 本 质 上 的 。 口 得 "只 出 现在 文字 中 


定理 10.12 “每 一 个 布尔 表达 式 E 都 等 价 于 一 个 表达 式 F， 在 F 中 否定 只 出 现在 文字 中 ， 即 直 
接 作用 在 变 元 上 。 而 且 ，F 的 长 度 是 E 的 符号 数 的 线性 函数 ， 并 且 可 以 在 多 项 式 时 间 里 从 E 构 造 
HF. 


Download at http://www.pinSi.com/ 


$ MA 307 





证 明 证 明 是 对 E 中 的 运算 (人 入 ，V ，-) 个 数 进行 归纳 。 证 明 存在 一 个 等 价 表达 式 F, 5 其 中 
"只 出 现在 文字 中 。 另 外 ， 如 果 E 有 mn> 1 个 运算 符 ， 则 有 不 超过 2n 一 1 个 运算 符 。 

F 没 有 必要 对 每 个 运算 符 使 用 超过 一 对 括号 ， 表 达 式 中 的 变 元 个 数 不 会 超过 运算 符 数 加 一 ， 
由 此 得 出 F 的 长 度 是 与 E 的 长 度 线性 地 成 比例 的 。 更 重要 的 是 ， 将 要 看 到 F 的 构造 非常 简单 ， 所 
以 构造 F 所 花费 的 时 间 与 F 的 长 度 成 比例 ， 因 此 与 E 的 长 度 成 比例 。 

基础 ， 如果 E 只 有 一 个 运算 符 ， 则 E 一 定 具 有 形式 -x，x Vy 或 x+ 人 y， 其 中 x 和 y 是 变 元 。 在 每 
种 情形 下 E 都 已 经 具备 所 需要 的 形式 ， 所 以 让 F = E 就 行 了 。 注 意 ，E 和 F 各 自 具有 一 个 运算 符 ， 
所 以 “F 至 多 具有 两 倍 于 E 的 运算 符 数 ” 的 关系 成 立 。 

归纳 : 假设 命题 对 于 运算 符 比 E 少 的 所 有 表达 式 都 为 真 。 如 果 E 的 最 高 层 运算 符 不 是 ->， 则 E 
一 定 具 有 形式 EV E: 或 Ei 信 Es。 在 任何 一 种 情形 下 ， 归 纳 假设 都 可 以 应 用 到 6, 和 态 上 :归纳 假设 
说 ;分 别 存在 着 等 价 表达 式 局 和 应 ， 其 中 所 有 的 -都 仅仅 出 现在 文字 中 。 于 是 已 = FiV Feat = 
(FD 人 (F) 就 是 E 的 适当 的 等 价 式 。 设 El 和 Es 分 别 有 a 和 b 个 运算 符 。 于 是 E 有 a + b + 1 个 运算 符 。 
根据 归纳 假设 ，F 和 下 分 别 至 多 有 2a 一 1 和 2b 一 1 个 运算 。 因 此 ，F 至 多 有 2a + 2b 一 1 个 运算 符 ， 
这 个 数字 不 超过 2(a + b+ D 一 1， 或 E 的 两 倍 运算 符 数 减 一 。 

现在 考虑 BE 形 如 "的 情形 。 根 据 已 的 最 高 层 运算 符 是 什么 ， 有 三 种 情形 ; 注意 ，Ei 必 须 有 
一 个 运算 符 ， 否 则 E 其 实 就 是 基础 情形 。 

L.E = >E2。 于 是 根据 双重 否定 律 ，E, = “(mE2) 等 价 于 E2。Es 比 E 运 算 符 少 ， 所 以 归纳 假设 
起 作用 。 可 以 找 出 与 ;等 价 的 Fr， 其 中 仅 有 的 -都 在 文字 里 。F 也 等 价 于 E。 因 为 F 的 运算 
符 数 至 多 是 Es 的 两 倍 运算 符 数 碱 一 ， 所 以 F 的 运算 符 数 表 定 不 会 超过 E 的 两 倍 运算 符 数 
减 一 。 

2. = EV Es, WHE ERG, E = AEV Es) 等 价 于 (~(E2)) 人 (A(E3)。~(E2) 和 (3) 都 比 E 
运算 符 少 ， 所 以 根据 归纳 假设 ，-(E;) 和 (Es) 都 有 等 价 的 和 Fy， 其 中 只 在 文字 里 才 有 -。 
FEF = (F) 信 (F3) 是 E 的 等 价 式 。 还 可 以 断言 F 中 运算 符 个 数 不 会 太 多 。 设 E 和 分 别 
有 a 个 和 b 个 运算 符 。 于 是 E 有 a + b+ 2 个 运算 符 。-(E) 和 -(E3) 分 别 有 a + 1 个 和 b+ 1 个 运算 
符 ， 而 和 Fs 是 从 这 些 表达 式 构造 出 来 的 ， 所 以 根据 归纳 假设 可 以 知道 ，F; 秘 分别 至 多 
有 2(a + 1) 一 1 个 和 2(b + 1) 一 1 个 运算 符 。 因 此 ，F 至 多 有 2a + 2b + 3 个 运算 符 。 这 个 数字 是 
E 的 两 倍 运算 符 数 减 一 。 

3. = Ex 人 Es。 利用 第 二 条 德 * 摩根 律 ， 这 个 论证 本 质 上 与 (2) 相 同 。 口 





算法 描述 


虽然 形式 化 地 说 ， 一 个 归 约 的 运行 时 间 就 是 这 个 归 约 在 单 带 图 灵机 上 执行 所 花费 的 时 
间 ， 但 是 单 带 图 灵机 的 算法 却 毫 无 必要 地 复杂 。 我 们 已 经 知道 ， 在 某 个 多 项 式 时 间 里 ， 在 
常规 计算 机 、 多 带 图 灵机 和 单 带 图 灵机 上 ， 所 能 解答 的 问题 的 集合 都 是 相同 的 ， 只 不 过 多 
项 式 的 次 数 可 能 不 同 而 已 。 因 此 ， 当 描述 某 些 相当 复杂 的 算法 ， 需 要 这 些 算法 来 把 一 个 NP 
完全 问题 归 约 到 另 一 个 NP 完 全 问题 时 ， 就 约定 : 用 算法 在 常规 计算 机 上 的 有 效 实现 来 度量 
时 间 。 这 种 理解 将 可 以 避免 带 操作 的 细节 ， 并 且 人 允许 强 调 重 要 的 算法 思想 。 
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10.3.3. CSAT 的 NP 完 全 性 


现在 ,需要 把 一 个 表达 式 E 转 化 成 CNF，E 是 文字 的 逻辑 与 和 逻辑 或 。 曾 经 指出 过 ， 为 了 在 
多 项 式 时 间 里 从 E 产 生 一 个 表达 式 F (F 是 可 满足 的 当 且 仅 当 E 是 可 满足 的 ) 就 必须 放弃 保持 等 价 
性 的 变换 ， 并 且 给 F 引 入 一 些 不 在 E 中 出 现 的 新 变 元 。 将 要 在 CSAT 是 NP 完全 的 证 明 中 介绍 这 个 
“技巧 "， 然 后 举 出 这 个 技巧 的 一 个 例子 ， 让 这 个 构造 更 清楚 。 


定理 10.13 CSAT 是 NP 完 全 的 。 
证 明 ”证明 如 何在 多 项 式 时 间 里 把 SAT 归 约 到 CSAT。 首 先 ， 利 用 定理 10.12 的 方法 ， 把 一 个 
给 定 的 SAT 实 例 转化 成 一 个 表达 式 E，E 只 在 文字 里 才 有 --。 然 后 ， 证 明 如 何在 多 项 式 时 间 里 把 E 
转化 成 一 个 CNF 表 达 式 F， 并 证 明 F 是 可 满足 的 当 且 仅 当 E 是 可 满足 的 。 通 过 对 E 的 长 度 进行 归纳 
来 构造 F。F 具 有 的 特殊 性 质 比 所 需要 的 还 要 多 一 些 。 淮 确 地 说 ， 通 过 对 的 符号 出 现 次 数 〈“ 长 
度 ") 进行 归纳 ， 可 以 证 明 : 
*， 存 在 常数 c， 使 得 如 果 E 是 一 个 长 度 为 n 的 布尔 表达 式 ， 其 中 -只 出 现在 文字 里 ， 则 存在 一 个 
表达 式 F， 使 得 : 
a) F 具 有 CNF 形 式 ，F 至 多 由 n 个 子 名 组成。 
b) 可 以 在 至 多 clEPF 时 间 里 从 E 构 造 出 F。 
C) E 的 真 值 赋值 7 使 E 为 真 ， 当 且 仅 当 存在 7 的 扩展 5 使 F 为 真 。 
基础 : 如 果 E 包 含 一 个 或 两 个 符号 ， 则 E 是 文字 。 文 字 是 子 句 ， 所 以 E 已 经 具有 CNF 形 式 。 
归纳 : 假设 每 一 个 比 5 短 的 表达 式 都 能 转化 为 子 句 之 积 ， 并 且 这 种 转换 在 长 度 为 n 的 表达 式 
上 至 多 花费 cw? 时间。 根据 E 的 最 高 层 运算 ， 存 在 两 种 情形 。 


情形 1: E= EE 人 Ez。 根 据 归纳 假设 ,分别 存在 从 Eu 和 Es 导出 的 具有 CNF 形 式 的 表达 式 Fi 和 下 2。 
已 的 所 有 可 满足 赋值 ， 并 且 只 有 可 满足 赋值 ， 才 可 以 扩展 成 已 的 可 满足 赋值 ， 对 于 已 和 已 也 是 同 
样 的 。 不 失 一 般 性 ， 可 以 假设 ; 除了 在 E 中 出 现 的 那些 变 元 之 外 ， 瓦 和 尼 的 变 元 是 不 相交 的 ， 即 
如 果 不 得 不 给 下 和 (或 ) F2 引 入 变 元 ， 那 么 就 使 用 不 同 的 变 元 。 

WF = Fi 八 F。 显 然 如 果 下 和 所 是 CNF， 则 Fi 人 F 也 是 CNF。 必 须 证 明 ，E 的 可 满足 赋值 7 可 
以 扩展 为 F 的 可 满足 赋值 ， 当 且 仅 当 7 满 足 E。 

( 当 ) 假设 7 满足 E。 设 是 7 的 限制 ， 使 得 Ti 只 作用 于 在 E, 中 出 现 的 变 元 上 ， 设 7: 是 对 于 Es 的 
同样 限制 。 于 是 根据 归纳 假设 ， 可 以 把 Ti 和 7 分 别 扩展 成 满足 Fl 和 FF 的 5 和 5S。 设 5 与 5, 和 5; 在 已 
经 定义 的 每 个 变 元 上 都 是 一 致 的 。 注 意 ，F1 和 F 仅 有 的 公共 变 元 都 是 E 的 变 元 ， 并 且 5! 和 5; 必 须 
在 共同 定义 的 变 元 上 是 一 致 的 ， 所 以 总 是 可 以 构造 出 S。 但 是 3 就 是 满足 F 的 7 的 扩展 。 

(RA) 反之 , 假设 T 有 满足 F 的 扩展 5。 设 Ti (RT) 是 把 7 限制 到 BE (RE) 的 变 元 上 。 设 
把 5 限制 到 F，( 或 太 ) 的 变 元 上 是 5，( 或 5:)。 于 是 51 是 的 扩展 ，5; 是 7 的 扩展 。 因 为 F 是 下 和 下 
的 逻辑 与 ， 所 以 一 定 有 5 满足 Fi 且 5; 满 足 F;。 根 据 归纳 假设 ，T，( 或 7;) ILE (RE). 
此 ，7 满 足 E。 


情形 2: E = EiV Ez。 与 情形 1 一 样 ， 利 用 归纳 假设 来 断言 :存在 表达 式 Fi 和 ,具有 以 下 性 
M: 
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L.E, (RE) 的 真 值 赋值 满足 E， (或 E52)， 当 且 仅 当 这 个 赋值 可 以 扩展 成 F， (F) 的 可 满 
足 赋值 。 

2. 除 了 在 E 中 出 现 的 那些 变 元 之 外 ， 瑟 和 有 天 的 变 元 是 不 相交 的 。 

3. 书 和 PR 都 具有 CNF 形 式 。 

不 能 简单 地 用 局 和 忆 的 逻辑 或 来 构造 所 需要 的 此 ， 原 因 在 于 ， 这 样 得 出 的 表达 式 可 能 不 具有 
CNF 形 式 。 但 是 ， 利 用 只 希望 保持 可 满足 性 而 不 是 等 价 性 这 一 事实 的 一 种 更 复杂 的 构造 将 会 行 
得 通 。 假 设 

Fi=giNg2N\* Ngp 
且 所 = 加 人 hh 和信 … 信 hs， 其 中 g 和 h 都 是 子 句 。 引 入 新 变 元 y， 并 设 
F=(y+8) A O+g) AA O8) A Gth) N Oth) Aw A O+h,) 
必须 证 明 ;， E 的 赋值 7 满足 E， 当 且 仅 当 7 能 扩展 成 满足 F 的 赋值 5。 

( 仅 当 ) 假设 7 满足 E。 像 在 情形 1 中 那样 ， 设 T， (RT) 是 把 7 限制 到 E，( 或 E) 的 变 元 上 。 
因为 E = ELV E2， 所 以 要 么 7 满足 El,， 要 么 7 满足 E2。 假 设 7 满足 Ei。 于 是 T，( 即 把 7 限制 到 E 的 变 
元 上 ) 就 能 扩展 成 满足 F 的 5,。 构 造 7 的 扩展 5 如 下 5 将 满足 上 面 定义 的 表达 式 ; 

1, 对 于 所 中 所 有 变 元 x，S(x) = Six). 

2.SO) =0。 这 个 选择 让 从 导出 的 所 有 子 句 都 为 真 。 

3. 对 于 所 有 在 F; 中 但 不 在 Fi 中 的 变 元 x:， 如 果 T(x) 有 定义 ， 则 选项 S(x) = Ta), AMSAT 

任意 为 0 或 1。 
于 是 由 于 规则 1，5 让 从 g 导 出 的 所 有 子 句 都 为 真 。 根 据 规则 2 (对 y 的 赋值 )，5 让 从 h 导 出 的 所 有 
子 句 都 为 真 。 因 此 ，5 满 足 F。 

如 果 7 不 满足 已 但 满足 已 ， 那 么 除了 在 规则 2 中 SC) = 1 之 外 ， 证 明 是 相同 的 。 而 且 ， 每 当 
52(x*) 有 定义 时 ，S(x) 就 一 定 与 5x(x) 一 致 ， 但 5(x) 对 只 在 $1 中 出 现 的 变 元 是 任意 的 。 结 论 是 ， 在 这 
种 情形 下 $ 也 满足 F。 

( 当 ) 假设 把 E 的 赋值 7 扩展 为 F 的 赋值 5，5 满 足 F。 根 据 把 什么 真 值 指派 给 y， 有 两 种 情形 。 
首先 假设 50) =0。 于 是 从 h 导 出 的 F 的 所 有 子 句 都 为 真 。 但 是 ，y 无 助 于 满足 从 g 导 出 的 形 如 (y + g) 
的 子 句 ， 这 意味 着 $ 一 定 让 每 个 8 本 身 为 真 ， 在 本 质 上 ，S 让 F 为 真 。 

更 准确 地 说 ， 设 5 是 把 5 限制 到 FF 的 变 元 上 。 于 是 5; 满 足 Fi。 根据 归纳 假设 ，T，( 即 把 7 限制 
到 的 变 元 上 ) 就 一 定 满足 E,。 原 因 在 于 ，3, 是 Ti 的 扩展 。T, 满 足 已 ， 所 以 7 必须 满足 已 (ER: 
EV E), 

还 必须 考虑 SC) = 1 的 情形 ， 但 这 种 情形 与 刚刚 看 到 了 的 情形 是 对 称 的 ， 把 证 明 留 给 读者 。 
结论 是 : 每 当 5 满 足 F，7 就 满足 E。 

现在 必须 证 明 。 从 E 构 造 F 的 时 间 ， 至 多 是 E 的 长 度 n 的 平方 。 无 论 是 哪 种 情形 ， 把 E 分 裂 成 
所 和 Es， 以 及 从 F 和 FF 构造 F， 每 部 分 都 花费 E 的 规模 的 线性 时 间 。 设 dn 是 在 情形 1 或 情形 2 中 ， 
从 E 构 造 E1 和 Es 的 时 间 加 上 从 Fi 和 所 :构造 F 的 时 间 之 和 的 上 界 。 于 是 存在 7(n) 的 递 推 方程 ，T(n) 是 
从 长 度 为 n 的 E 构 造 F 的 时 间 ， 递 推 方程 的 形式 是 : 

TUD) = 7T(2)<e， 对 于 某 个 常数 e 
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T(n)<dn + cmaxocier-i(TM() + Tn—1—i) )， 对 于 n>3。 


其 中 c 是 有 待 确定 的 常数 ， 使 得 可 以 证 明 T(n)<cm。7(1) 和 7(2) 的 基础 规则 只 是 简单 提出 ; 如 果 E 
是 单个 符号 或 一 对 符号 ， 则 不 需要 递 推 ， 因 为 E 只 能 是 单个 文字 ， 整 个 过 程 花费 某 个 时 间 e。 递 
推 规则 利用 下 面 这 个 事实 如 果 E 是 用 人 或 V 连接 的 子 表达 式 E' 和 EE; 组 成 的 ，E' 长 度 为 i MEK 
度 为 mn 一 i- 1。 而 且 ， 从 E 到 的 整个 转换 是 由 两 个 简单 步骤 组 成 的 : 把 E 变 成 和 E，， 再 把 F 和 
FERF (已 知 这 两 个 步 台 至 多 花费 dn 时 间 )， 以 及 从 Ei 到 Fi 和 从 Es 到 F, 的 两 个 递归 转化 。 

需要 通过 对 n 归 纳 来 证 明 ， 存 在 常数 c<， 使 得 对 于 所 有 n，T(n)<cm?。 

基础 : 对 于 "= 1， 只 需要 挑选 < 至 少 像 e 那 样 大 。 

归纳 : 假设 对 于 小 于 "的 长 度 , 命题 成 立 。 于 是 TUD<cP 昌 Tt 一 iD<c 一 一 D? 因此; 

T@ + Tin—i-1l) <r? -2i(n—i)-2An-D +1 (10-1) 

因为 mn>3 且 0 < i < n 一 1， 所 以 2in 一 让 至 少 为 mw 2 一 让 至 少 为 2。 因 此 ， 对 于 在 允许 范围 内 的 任 
何 ;， 式 (10-10) 的 右边 小 于 亚 一 as。 因此 在 TUm) 定 义 中 的 递 推 规则 说 HKm<dn + cm 一 cn。 如 果 选择 c 
> d， 就 可 推出 对 mn 成立 TUD)< cm， 这 样 就 完成 了 归纳 。 因 此 ， 从 E 构 造 F 花 费 O(n”) 时 间 。 口 


例 10.14 说 明 如 何 把 定理 10.13 的 构造 应 用 到 一 个 简单 表达 式 上 ; EE=xy+x(y+z)。 图 10-7 
说 明 这 个 表达 式 的 语法 分 析 。 每 个 顶点 所 附带 的 CNF 表 达 式 是 为 该 顶点 所 表示 的 表达 式 而 构造 
出 来 的 。 


(w+xJG+y)G+X)GG++y) (Wtv+z) 





vty +z) 


gO), @) 
图 10-7 把 布尔 表达 式 变换 成 CNF 


树叶 对 应 于 文字 ， 而 对 于 每 个 文字 ， 这 个 CNF 表 达 式 是 由 这 个 文字 单独 组 成 的 一 个 子 句 。 
例如 ， 可 以 看 到 ， 标 记 为 的 树叶 带 有 一 个 相关 表达 式 ( y)。 虽 然 括号 不 是 必要 的 ， 但 是 我 们 在 
CNF 表 达 式 中 加 入 这 些 括号 ， 以 便 帮助 提醒 读者 现在 正在 讨论 子 句 之 积 。 

对 于 AND 顶 点 , 一 个 CNF 表 达 式 的 构造 就 只 是 对 于 两 个 子 表达 式 取 所 有 子 句 之 积 ( 逻 辑 与 )。 
因此 ， 例 如 ， 子 表达 式 x(y+z) 的 顶点 具有 一 个 相关 的 CNF 表 达 式 ， 这 个 珍 达 式 是 的 一 个 子 句 
( 即 (x)) 和 y +z 的 两 个 子 名 ( 即 (v+y)v+z)) ZAP. 


O 在 这 个 特殊 情形 里 (y+ z 已 经 是 子 句 )， 没 有 必要 完成 关于 这 些 表达 式 的 OR 的 一 般 构造 ， 本 来 可 以 产生 Cy + z) 
作为 等 价 于 y + z 的 子 句 之 积 。 但 是 ， 在 这 个 例子 中 ， 还 是 坚持 了 采用 一 般 规则 。 
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对 于 OR 顶点 ， 必 须 引入 新 的 变 元 。 把 新 变 元 加 入 到 左 运 算 对 象 的 所 有 子 句 中 ， 把 新 变 元 的 
否定 加 入 到 右 运算 对 象 的 所 有 子 句 中 。 例 如 ， 考 虑 图 10-7 的 根 顶点 。 这 个 顶点 是 表达 式 xy 
和 xy+z) 的 逻辑 或 ， 这 两 个 表达 式 的 CNF 已 经 确定 ， 分 别 是 MOM G+ NO+2). BAR 
变 元 k， 把 w 未 经 否定 加 入 到 第 一 组 子 句 ，x 在 第 二 组 子 句 中 是 否定 的 。 结 果 是 ; 

F=(u+x)(ut ut (Ut V+ y+ +z) 

定理 10.13 说 : 任何 满足 E 的 赋值 都 能 扩展 为 满足 F 的 赋值 5。 例 如， 赋值 7(x) = 0, TO) = 1 和 
TQ) = 1 满足 E。 可 以 这 样 把 7 扩展 为 S$， 由 7 得 到 所 必须 的 S(x) = 0, SO) = 1, SC) = 1， 再 加 入 S(w) = 
1 和 5(v) =0。 读 者 可 验证 5 满足 F。 

注意 ， 在 5 的 选择 过 程 中 ， 要 求 选择 5(u) = 1， 原 因 在 于 ，7 只 让 E 的 第 二 部 分 x(y+z) 为 真 。 
Eie, MESU = 1 来 让 子 句 (w+ x)(u+ 驴 为 真 ， 这 个 子 句 来 自 E 的 第 一 部 分 。 但 是 ， 可 以 为 v 选 
择 任意 值 ， 因 为 在 子 表达 式 y + z 中 ， 根 据 7 可 知 ， 逻 辑 或 的 两 边 都 为 真 。 o 


10.3.4 3SAT 的 NP 完 全 性 


现在 ， 证 明 一 个 甚至 更 小 也 具有 NP 完 全 的 可 满足 性 问题 的 布尔 表达 式 类 。 回 忆 一 下 ，3SAT 
问题 是 : 


。 给 定 一 个 布尔 表达 式 E，E 是 子 句 之 积 ， 每 个 子 句 是 三 个 不 同文 字 之 和 ，E 是 可 满足 的 吗 ? 


虽然 3-CNF 表 达 式 是 CNF 表 达 式 的 一 小 部 分 ， 但 是 下 一 个 定理 说 明 ， 这 些 表达 式 足够 复杂 ， 使 得 
其 可 满足 性 检验 是 NP 完全 的 。 


定理 10.15 3SAT 是 NP 完全 的 。 
证 明 显然 3SAT 属 于 XP， 因为 SAT 属 于 NXP。 为 了 证 明 NP 完全 性 ， 将 把 CSAT 归 约 到 3SAT。 
这 个 归 约 如 下 。 给 定 布尔 表达 式 E = ei 作 e;: 人 … 信 et:， 震 换 每 个 子 句 e: 如 下 ， 以 产生 新 的 表达 式 F。 
构造 F 所 花费 的 时 间 是 E 的 长 度 的 线性 函数 ， 将 要 看 到 一 个 赋值 满足 E， 当 且 仅 当 这 个 赋值 能 
扩展 为 F 的 可 满足 赋值 。 
1. 如 果 ei 是 单个 文字 ， 比 如 说 (9 ， 就 引入 两 个 新 变 元 k 和 yw。 把 (9) 换 成 四 个 子 句 (x+u+v) 
(x+u+D (xX+UtV) (x+u+ 们 。 因 为 和 "以 所 有 组 合 方式 出 现 ， 所 以 满足 全 部 四 个 子 句 
的 惟一 方法 是 让 x 为 真 。 因 此 ， 所 有 E 的 可 满足 赋值 并 且 只 有 E 的 可 满足 赋值 才能 扩展 为 
的 可 满足 赋值 。 
2. 假 设 e 是 两 个 文字 之 和 (xz + y)。 引 入 一 个 新 变 元 z:， 把 ei 换 戌 两 个 子 名 之 积 (x+y+2) 
(x+y+z) 。 与 情形 1 中 一 样 ， 满 足 这 两 个 子 句 的 惟一 方法 是 满足 (x +). 
3. 如 果 e 是 三 个 文字 之 和 ，ei 就 已 经 具有 3-CNE 所 需要 的 形式 ， 所 以 在 构造 的 表达 式 F 中 保 
Wei. 
4 ABM FH mS4, e= (Citrate + imo SIARMIBICY, Y2 s yw-3， 并 把 e 换 成 下 列 


O 为 了 方便 ,将 在 讨论 文字 时 假定 文字 都 是 非 否定 变 元 (如 x)。 但 如 果 部 分 或 全 部 变 元 是 否定 的 (如 x)， 则 这 
个 构造 同样 好 地 起 作用 。 
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子 句 之 积 
(x, +x, + ya, +, ty, +9, ty) 
tat ty rt +a) (10-2) 
满足 E 的 赋值 7 一 定 让 ei 的 至 少 一 个 变 元 为 真 ， 比 如 说 7 让 为 真 ( 提 醒 一 下 , 必 可 能 是 变 
元 或 否定 变 元 )。 因 此 ， 如 果 让 yi, ya s oI, FLL YA yy ，…, ym_: 为 假 ， 则 满足 式 
(10-2) 的 全 部 子 句 。 因 此 ， 可 以 扩展 7 满足 这 些 子 句 。 反 之 ， 如 果 7 让 所 有 x 都 为 假 ， 则 不 
可 能 扩展 让 式 (10-2) 为 真 。 原 因 在 于 ， 存 在 着 m 一 2 个 子 旬 ， 而 m 一 3 个 y 中 ， 每 个 y 无 论 
是 真 或 是 假 ， 都 只 能 让 一 个 子 句 为 真 。 
因此 已 经 证 明 : 如 何 把 CSAT 的 每 个 实例 E 归 约 为 3SAT 的 实例 P， 使 得 有 是 可 满足 的 当 且 仅 当 
5 是 可 满足 的 。 这 个 构造 显然 需要 E 的 长 度 的 线性 时 间 ， 原 因 在 于 ， 上 述 四 种 情形 都 不 把 子 句 伸 
长 到 超过 32/3 倍 (32/3 是 情形 1 中 符号 数 的 比值 )， 并 且 在 与 需要 的 符号 数 成 比例 的 时 间 里 就 能 
轻而易举 地 计算 出 这 些 符号 。 因 为 CSAT 是 NP 完全 的 ， 所 以 得 出 3-SAT 同 样 是 NP 完全 的 。 口 


10.3.5 习题 


习题 10.3.1 把 下 面 的 布尔 表达 式 化 为 3-CNF: 
*a) y+, 
b) wxyz+u +v, 
C) wxy + XUV 。 
习题 10.3.2 ”4TA-SAT 问 题 定 义 如 下 : 给 定 一 个 布尔 表达 式 E，E 是 否 至 少 有 四 个 可 满足 赋 
值 ? 证 明 4TA-SAT 是 NP 完全 的 。 
习题 10.3.3 在 本 题 中 将 定义 一 族 3-CNF 表 达 式 。 表 达 式 玉 Fin BIE, …, 为 。 对 于 每 一 
组 在 1 和 nm 之 间 的 三 个 不 同 整数 i，j 和 hk，E, 有 子 句 (x, +x, +x.) A+ +). ME PAULL, 
羽 是 可 满足 的 吗 ? 
+la)n=4? 
1b) n=5? 
! 习题 10.3.4 给 出 解答 2SAT 问 题 的 多 项 式 时 间 算法 ，2SAT 是 每 个 子 句 只 有 两 个 文字 的 布尔 
表达 式 的 可 满足 性 问题 。 提 示 :， 如 果子 句 的 两 个 文字 中 有 一 个 为 假 ， 则 另 一 个 文字 被 迫 为 真 。 
首先 假设 一 个 变 元 的 真 值 ， 然 后 对 其 余 变 元 分 析 所 有 可 能 的 后 果 。 


10.4 其 他 的 NP 完 全 问题 


现在 将 要 给 出 一 个 小 型 的 示范 过 程 ， 通 过 这 个 过 程 ， 一 个 NP 完全 问题 就 导致 证 明 其 他 问题 
也 是 NP 完全 的 。 这 个 发 现 新 的 NP 完全 问题 的 过 程 具 有 两 种 重要 作用 : 

“ 当 发 现 一 个 问题 是 NP 完全 时 ， 这 就 说 明 ， 几 乎 不 可 能 设计 出 有 效 的 算法 来 解答 这 个 问题 。 
鼓励 寻找 启发 式 、 部 分 解 、 近 似 或 其 他 方法 ， 来 避免 正面 攻克 这 个 问题 。 而 且 ， 可 以 具有 
这 样 的 信心 : 不 是 由 于 “缺少 技巧 ” 才 这 样 做 的 。 

“每 当 把 一 个 新 的 NP 完全 问题 P 加 入 到 这 个 表 中 ， 就 再 次 强化 了 这 个 思想 ， 所 有 NP 完 全 问 
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题 都 需要 指数 时 间 。 那 些 毫 不 迟疑 地 投入 到 寻找 P 的 多 项 式 时 间 算 法 的 努力 ， 无 意 中 成 了 

证 明 2 = NP 的 工作 。 许 多 有 很 高 技巧 的 科学 家 和 数学 家 在 证 明 等 价 于 2 = NP 的 某 些 命题 

上 的 不 成 功 尝试 越 积 越 多 ， 最 终 说 服 大 家 相信 : 不 但 2= NP 是 非常 不 太 可 能 的 ， 而 且 更 进 

一 步 ， 所 有 NP 完全 问题 都 需要 指数 时 间 。 

在 本 节 ， 遇 到 几 个 与 图 有 关 的 NP 完 全 问题 。 这 些 问 题 属 于 图 问题 之 列 ， 在 解答 具有 实际 重 
要 性 的 问题 时 是 最 常用 的 。 本 节 将 要 讨论 以 前 在 10.1.4 节 遇 到 过 的 货 朗 问题 (TSP)。 本 节 还 将 证 
明 这 个 问题 的 简化 但 同样 重要 的 版 本 ( 称 为 哈密 顿 回 路 问题 (HC)) 是 NP 完全 的 ， 从 而 证 明 更 
具 一 般 性 的 TSP 是 NP 完全 的 。 将 要 介绍 与 图 的 “覆盖 ”有 关 的 其 他 几 个 问题 ， 比 如 “顶点 覆盖 
问题 "， 这 个 问题 要 求 在 每 条 边 至 少 有 一 端 属 于 所 选择 集合 的 意义 下 ， 找 出 “覆盖 ”所 有 边 的 最 
小 顶点 集 。 


10.4.1 描述 NP 完全 问题 


在 介绍 新 的 NP 完全 问题 时 ， 将 使 用 下 列 特 殊 样式 的 定义 : 

1. 问题 的 名 称 ， 通 常 是 缩写 ， 比 如 3SAT 或 TSP。 

2. 问题 的 输入 ;表示 什么 ， 以 及 如 何 表示 。 

3. 所 需要 的 输出 ;在 什么 情况 下 输出 应 当 是 “是 ”? 

4. 建立 归 约 所 利用 的 问题 ， 以 证 明 所 定义 的 问题 是 NP 完 全 的 。 


例 10.16 下 面 说 明 ， 对 3SAT 问 题 的 描述 及 其 NP 完全 性 的 证 明 ， 看 起 来 可 能 是 : 

问题 ，3-CNF 表 达 式 的 可 满足 性 (3SAT)。 

输入 具有 3-CNF 形 式 的 布尔 表达 式 。 

输出 :“ 是 ” 当 且 仅 当 这 个 表达 式 是 可 满足 的 。 

HARA: CSAT, o 


10.4.2 独立 集 问题 


设 G 是 一 个 无 向 图 。 如 果 在 G 的 顶点 子 集 1 中 任何 两 点 都 没有 G 的 边 相 连 ， 则 称 [ 是 独立 集 。 
如 果 一 个 独立 集 不 小 于 (顶点 数 不 少 于 ) 原 图 的 任何 独立 集 ， 则 这 个 独立 集 就 是 最 大 的 。9 


例 10.17 在 图 10-1 (参见 10.1.2 节 ) 中 ，{1,4) 是 最 大 独立 集 。 这 是 规模 为 2 的 惟一 的 独立 集 ， 
因为 任何 其 他 项 点 对 之 间 都 有 边 。 因 此 没有 规模 为 3 或 更 大 的 独立 集 ， 比 如 {1, 2, 4} 不 是 独立 集 ， 
因为 在 1 和 2 之 间 有 边 。 因 此 {1, 4} 是 最 大 独立 集 。 在 一 般 情况 下 ， 一 个 图 可 以 有 多 个 最 大 独立 集 ， 
但 是 事实 上 ，{1, 4} 是 这 个 图 惟一 的 最 大 独立 集 。 另 一 个 例子 是 ，{1} 是 这 个 图 的 独立 集 ， 但 不 
是 最 大 的 。 o 


在 组 合 优化 中 ， 通 常 把 最 大 独立 集 问题 陈述 为 : 给 定 一 个 图 ， 求 最 大 独立 集 。 但 在 难 解 问 
题 理论 中 ， 所 有 问题 都 需要 用 是 / 否 的 术语 来 陈述 。 因 此 需要 在 问题 的 陈述 中 引入 下 界 ， 把 问题 


日 ”原文 maximal 指 “ 极 大 的 "， 据 上 下 文 应 是 maximum， 指 “最 大 的 "。 一 一 译 者 注 
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陈述 为 ; 给 定 的 图 是 否 具有 不 小 于 这 个 下 界 的 独立 集 。 最 大 独立 集 问题 的 形式 化 定义 是 : 

问题 独立 集 (IS), 

HA: 图 G 和 下 界 k，k 必 须 在 1 到 G 的 顶点 数 之 间 。 

输出 :“ 是 ” 当 且 仅 当 G 具 有 k 个 顶点 的 独立 集 。 

HARA: 3SAT。 

正如 承诺 过 的 那样 ”必须 用 来 自 3SAT 的 多 项 式 时 间 归 约 去 证 明 IS 是 NP 完全 的 。 这 个 归 约 在 
下 一 个 定理 中 。 


定理 10.18 独立 集 问题 是 NP 完全 的 。 
证 明 首先 ， ABA: IS 属 于 NP。 给 定 图 G 和 限度 k， 猜 测 k 个 顶点 并 验证 这 些 顶 点 是 独 
立 的 。 
现在 , 证明 如 何 完成 从 3SAT 到 IS 的 归 约 。 设 E = (ei)(e2)…(em) 是 3-CNF 表 达 式 。 从 构造 出 一 
个 有 3m 个 顶点 的 图 G， 将 要 把 这 些 顶 点 命名 为 [i, ， 其 中 1<i<m 并 且 j = 1, 2, 3。 顶 点 [i, eA 
子 句 e 中 的 第 /个 文字 。 图 10-8 是 图 G 的 例子 ， 这 个 图 是 基于 下 面 的 3-CNF 表 达 式 的 ， 
(x, +x, +), +4, +x) +2, +4,)0, +2, +) 


图 中 的 列表 示 子 句 ， 稍 后 将 解释 为 什么 边 是 这 样 的 。 








图 10-8 从 可 满足 的 3-CNF 布 尔 表达 式 来 构造 独立 集 


在 G 的 构造 背后 的 “技巧 ”是 : 利用 边 迫 使 m 个 顶点 的 任何 独立 集 都 表示 满足 表达 式 E 的 方 
式 。 有 两 个 关键 性 的 思想 。 
1 希望 确保 只 能 选择 一 个 对 应 于 给 定子 句 的 顶点 。 通 过 在 一 列 中 所 有 顶点 对 之 间 都 放 上 边 ， 
来 做 到 这 一 点 ， 即 如 图 10-8 所 示 ， 对 于 所 有 i， 创 造 出 边 ([i, 1, l, 2D, (U, 1], [i, 3), ([i, 21, 
li, 3). 
2. UWB EA TIERRA FETUS. E, REER ATA, Ai j), 
(ES — PRIX, BARRI, 那 就 在 这 两 个 顶点 之 间 放 上 边 ; 因此 不 可 能 
为 同一 个 独立 集 选择 这 两 个 顶点 。 
对 于 根据 这 两 条 规则 所 构造 的 图 G6， 限 度 k 是 m。 
不 难看 出 ， 如 何在 与 E 的 长 度 成 比例 的 时 间 内 构造 出 图 G 和 限度 k， 所 以 从 E 到 G 的 转换 是 多 
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项 式 时 间 归 约 。 必 须 证 明 : 这 个 变换 把 3SAT 正 确 地 归 约 到 IS。 也 就 是 说 : 
。E 是 可 满足 的 ， 当 且 仅 当 G 有 规模 为 m 的 独立 集 。 


( 当 ) 首先 , 注意 ; 独立 集 不 可 能 包括 来 自 同一 个 子 句 的 两 个 顶点 多 加 和 [i, 加 ， 对 于 某 个 j 关 放 。 
原因 在 于 ， 在 图 10-8 的 列 中 可 以 看 到 ， 在 每 对 这 样 的 顶点 之 间 都 有 边 。 因 此 ， 如 果 存 在 规模 为 m 
的 独立 集 ， 则 这 个 独立 集 必须 包括 来 自 每 个 子 名 的 恰好 一 个 顶点 。 

市 且 ， 独 立 集 不 可 能 包括 与 变 元 * 及 其 否定 x 相对 应 的 两 个 顶点 。 原 因 在 于 ， 所 有 这 样 的 顶 
点 对 之 间 都 有 一 条 边 。 因 此 ， 规 模 为 m 的 独立 集 /就 产生 E 的 一 个 可 满足 赋值 如 下 如 果 与 变 元 x 
对 应 的 顶点 属于 7， 则 让 TCD = 1， 如 果 与 否定 变 元 x 对 应 的 顶点 属于 7， 则 选择 TG) = 0。 如 果 1 中 
没有 顶点 对 应 于 x 或 xX， 则 任意 地 选择 T(x)。 注 意 ， 上 面 列举 的 第 (2) 条 解释 了 为 什么 不 存在 矛盾 ， 
即使 ! 中 的 顶点 既 对 应 于 x 又 对 应 于 x 。 

我 们 断言 : 7 满足 E。 原 因 在 于 ，E 的 每 个 子 句 都 在 7 中 有 一 个 顶点 ， 这 个 顶点 对 应 于 这 个 子 
句 的 一 个 文字 ， 这 样 选择 T7， 使 得 7 让 这 个 文字 为 真 。 因 此 ， 当 规模 为 mn 的 独立 集 存在 时 ，E 是 可 
满足 的 。 

( 仅 当 ) 现在 假设 某 个 赋值 (如 7) 让 E 可 满足 。7 让 E 的 每 个 子 句 都 为 真 ， 所 以 能 从 每 个 
子 句 找 出 一 个 在 7 下 为 真 的 文字 。 对 于 某 些 子 句 ， 可 能 有 两 三 个 文字 可 供 选择 ， 如 果 是 这 样 ， 
就 从 其 中 任 选 一 个 。 选 择 与 从 每 个 子 句 选 出 的 文字 相对 应 的 项 点， 就 构造 出 有 mm 个 顶点 的 集 
Fl, 

我 们 断言 : 是 独立 集 。 来 自 相 同 子 句 的 顶点 (图 10-8 中 的 列 ) 之 间 的 边 不 可 能 两 端 都 属于 /， 
因为 从 每 个 子 句 只 选择 一 个 顶点 。 连 接 变 元 及 其 否定 的 边 ， 不 可 能 两 端 都 属于 /， 因 为 只 给 /选择 
在 赋值 7 下 为 真 的 文字 所 对 应 的 顶点 。 当 然 ，7 将 使 z 和 1 其 中 一 个 为 真 ， 但 决 不 会 两 个 都 为 真 。 
结论 是 ， 如 果 E 是 可 满足 的 ， 则 G 有 规模 为 m 的 独立 集 。 

因此 ， 存 在 从 3SAT 到 IS 的 多 项 式 时 间 归 约 。 已 知 35AT 是 NP 完全 的 ， 所 以 根据 定理 10.5，IS 
也 是 NP 完全 的 。 口 


例 10.19 看 看 定理 10.18 的 构造 如 何 对 下 面 的 情形 起 作用 ， 其 中 
Em (x, +x, +x, A, +x, +x) +4, +4), +2, +) 
在 图 10-8 中 已 经 看 到 过 从 这 个 表达 式 得 出 的 图 。 顶 点 处 在 与 四 个 子 句 对 应 的 四 列 中 。 对 于 每 个 
顶点 ， 不 仅 显示 了 这 个 顶点 的 名 称 (一 对 整数 )， 而 且 显示 了 这 个 顶点 对 应 的 文字 。 注 意 ， 在 一 
列 中 每 对 顶点 之 间 如 何 连 边 ， 这 些 顶 点 对 应 着 一 个 子 句 中 的 文字 。 在 对 应 于 变 元 及 其 否定 的 每 
对 顶点 之 间 也 存在 着 边 。 例 如 ， 对 应 于 x, 的 顶点 [3, 1501, 2] 和 [2, 2] 这 两 个 顶点 之 间 有 边 ， 这 
两 个 顶点 各 自 对 应 于 zz 的 一 次 出 现 。 

已 经 用 黑色 轮廓 选择 了 有 四 个 顶点 的 集合 !， 每 列 选择 一 个 顶点 。 这 些 顶 点 显然 构成 独立 集 。 
因为 这 些 顶点 的 四 个 文字 是 X a 天 ， 因 此 可 以 从 这 些 顶 点 构造 出 赋值 7， 让 TUz) = 1, To) 
= 1,705) = 1,704) =0。 虽 然 对 于 xs 也 必须 赋值 ， 但 是 可 以 任意 选择 (比方 说 T(xs) =0)。 现 在 7 满 
足 E， 顶 点 集合 /从 每 个 子 句 中 指明 在 T 下 为 真 的 文字 。 口 
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“是 - 否 ”问题 更 容易 吗 ? 


读者 可 能 会 担心 ， 问 题 的 “是 - 否 ”版 本 要 易于 优化 版 本 。 例 如 ， 可 能 难以 求 出 最 大 
独立 集 ， 但 给 定 小 的 限度 k 可 能 易于 验证 存在 规模 为 的 独立 集 。 虽 然 这 是 真 的 ， 但 同样 为 
真 的 是 : 有 可 能 给 定 的 常数 恰好 就 是 独立 集 存在 的 最 大 规模 。 如 果 是 这 样 ， 则 解答 “是 一 
否 ”版 本 就 需要 求 出 最 大 独立 集 。 

事实 上 ， 所 有 普通 NP 完 全 问题 的 “是 一 否 ”版 本 与 优化 版 本 在 复杂 度 上 都 是 等 价 的 ， 
至 少 其 差别 是 在 多 项 式 之 内 。 在 典型 情况 下 ( 像 在 IS 的 情形 中 )， 假 如 有 多 项 式 时 间 算 法 求 
出 最 大 独立 集 ， 则 可 以 这 样 解答 “是 - 否 ”问题 : 求 出 最 大 独立 集 ， 验 证 这 个 最 大 独立 集 
是 否 至 少 不 小 于 限度 k。 因 为 我 们 将 要 证 明 “ 是 - 否 ”版 本 是 NP 完全 的 ， 所 以 优化 版 本 也 一 
定 是 难 解 的 。 

换个 方向 也 能 进行 比较 。 假 设 “ 是 - 否 ”问题 IS 有 多 项 式 时 间 算 法 。 如 果 图 有 n 个 顶点 ， 
则 最 大 独立 集 规模 是 在 1 到 "之 间 。 让 IS 跑 遍 在 1 与 "之 间 的 所 有 限度 ， 就 确实 能 在 n 倍 于 解答 
一 遍 IS 所 花费 的 时 间 内 ， 求 出 最 大 独立 集 的 规模 (但 不 一 定 是 最 大 独立 集 本 身 )。 事 实 上 ， 
使 用 二 分 搜索 ， 在 运行 时 间 上 只 需要 logxn 倍 数 。 








独立 集 有 什么 用 途 ? 


本 书 的 目标 不 是 详细 寺 论 那些 被 证 明 为 NP 完 全 的 问题 的 应 用 。 但 是 ，10.4 节 中 的 问题 
都 选 自 R. Karp 关 于 NP 完 全 性 的 黄 基 性 文章 ， 在 这 篇 文章 中 ，Karp 考 察 了 来 自 运筹 学 领域 的 
最 重要 的 问题 ， 并 证 明了 其 中 许多 问题 都 是 NP 完全 的 。 因 此 ， 有 充足 的 证 据 可 用 于 说 明 ， 
“真实 ”问题 是 利用 这 些 抽象 问题 来 解答 的 。 

例如 ,可 以 使 用 求 大 独立 集 的 好 算法 来 安排 期 未 考试 。 设 图 的 顶点 是 课程 ， 如 果 有 至 
少 一 个 学 生 同时 学 习 两 门 课程 ， 则 在 两 个 项 点 之 间 连 边 ， 因 此 这 两 门 课程 的 期 未 考试 不 能 
安排 在 同一 时 间 。 如 果 求 出 了 最 大 独立 集 ， 就 能 安排 这 些 课程 同时 进行 期 未 考试 ， 以 确保 
将 没有 学 生 面 临时 间 冲突 。 
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10.4.3 项 点 覆盖 问题 


另 一 类 重要 的 组 合 优化 问题 都 与 图 的 “覆盖 ” AX. Gin, VARMA, w 
有 向 图 中 每 个 顶点 都 至 少 有 一 条 有 向 边 属于 这 个 集合 。 如 果 一 个 边 覆 盖 在 原 图 的 任意 边 禾 关中 
具有 最 少 边 数 ， 则 这 个 边 覆 盖 集 合 是 最 小 的 。 判 定 一 个 有 向 图 是 否 具有 条 边 的 边 覆 盖 ， 这 个 问 
题 是 NP 完全 的 ， 但 在 这 里 将 不 予 证 明 。 

本 节 将 要 证 明 顶 点 度 盖 问题 是 NP 完全 的 。 图 的 顶点 覆盖 是 使 得 每 条 边 都 至 少 有 一 个 端点 在 
这 个 集合 中 的 顶点 的 一 个 集合 。 如 果 一 个 顶点 覆盖 在 原 图 的 任意 顶点 覆盖 中 具有 最 少 顶 点 数 ， 
那么 这 个 顶点 覆盖 就 是 最 小 的 。 

项 点 覆盖 与 独立 集 有 密切 关系 。 事 实 上 ， 独 立 集 的 补 就 是 顶点 覆盖 ， 反 之 亦 然 。 因 此 ， 如 
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果 适 当地 陈述 顶点 覆盖 问题 (NC) 的 “是 - 否 ” 版 本 ， 则 从 IS 出 发 的 归 约 是 非常 简单 的 。 
问题 ， 顶 点 覆盖 问 题 (NC). 
MA: 图 G 和 上 界 k，k 必 须 是 在 从 0 到 G 的 顶点 数 减 一 之 间 。 
输出 :“ 是 ” 当 且 仅 当 G 有 不 超过 k 个 顶点 的 顶点 覆盖 。 
BARA: 独立 集 。 


定理 10.20 顶点 覆盖 问题 是 NP 完全 的 。 

证 明 显然 NC 属于 NP。 猜测 k 个 顶点 的 一 个 集合 ， 验 证 G 的 每 条 边 都 至 少 有 一 个 端点 属于 
这 个 集合 。 

为 了 完成 证 明 ,， 将 要 把 IS 归 约 到 NC。 如 图 10-8 所 示 ，、 归 约 的 思想 是 ， 独立 集 的 补 是 顶点 覆 
盖 。 例 如 ， 在 图 10-8 中 ， 无 粗 线 轮廓 的 顶点 的 集合 构成 顶点 覆盖 。 粗 线 轮 廓 顶点 其 实 是 最 大 独 
立 集 ， 所 以 其 余 顶 点 构成 最 小 顶点 覆盖 。 

归 约 如 下 。 设 G 和 下 界 k 是 独立 集 问 题 的 一 个 实例 。 如 果 G 有 n 个 顶点 ， 则 把 G 和 上 界 n 一 k 作 
为 造 出 的 顶点 覆盖 问题 实例 。 显 然 能 在 多 项 式 时 间 内 完成 这 个 变换 。 断 言 : 


*G 有 规模 为 k 的 独立 集 ， 当 且 仅 当 G 有 规模 为 n 一 k 的 顶点 覆盖 。 


( 当 ) 设 N 是 G6 的 顶点 集合 ， 设 C 是 规模 为 n 一 k 的 顶点 覆盖 。 断 言 NC 是 独立 集 。 假 设 不 是 
这 样 ， 即 在 N 一 C 中 存在 顶点 对 v 和 w， 在 v 和 w 之 间 有 G 中 的 边 。 于 是 v 和 w 都 不 属于 C， 所 以 所 谓 
的 顶点 覆盖 C 并 不 覆盖 G 中 的 (v, w)。 用 归 廖 法 已 经 证 明了 N 一 C 是 独立 集 。 显 然 这 个 集合 有 k 个 顶 
点 ， 所 以 这 个 方向 的 证 明 已 经 完成 。 

( 仅 当 ) 假设 /是 有 k 个 顶点 的 独立 集 。 断 言 : N 一 /是 有 ni 一 k 个 顶点 的 顶点 覆盖 。 同 样 用 归 雇 
法 来 进行 证 明 。 如 果 存在 某 条 边 (v, w) 没 有 被 N 一 /覆盖 ， 则 v 和 w 都 属于 /， 但 v 和 w 有 边 相 连 ， 这 
与 独立 集 的 定义 相 矛 盾 。 口 


10.4.4 有 向 哈密 顿 回路 问题 


想 要 证 明 货 郎 问题 (TSP) 是 NP 完全 的 ， 因 为 这 个 问题 是 组 合 学 中 最 受 关注 的 问题 之 一 。 
这 个 问题 的 NP 完全 性 的 最 著名 证 明 其 实 是 证 明 一 个 更 简单 的 问题 ( 即 所 谓 “ 哈 密 顿 回路 问题 ” 
(HC)) 是 NP 完 全 的 。 哈 密 顿 回路 问题 可 描述 如 下 : 

问题 ;哈密 顿 回路 问题 。 

MA: 无 向 图 G。 

输出 :“ 是 ” 当 且 仅 当 G 有 哈 害 顿 回路 ， 即 经 过 G 每 个 顶点 恰好 一 次 的 回路 。 
注意 HC 问题 是 TSP 的 特殊 情形 ， 在 HC 问题 中 边 上 所 有 权 都 是 1。 因 此 ， 从 HC 到 TSP 的 多 项 式 时 
间 归 约 是 非常 简单 的 : 仅仅 给 图 中 每 条 边 的 说 明 加 上 权 1。 

HC 的 NP 完全 性 证 明 是 非常 困难 的 。 本 书 的 方法 是 介绍 HC 的 更 受 限制 的 版 本 ， 其 中 边 有 方 
向 〈 即 边 是 有 向 边 或 箭 弧 ) ， 要 求 哈密 顿 回路 沿 正确 方向 经 过 箭 弧 。 把 3SAT 归 约 到 HC 问 题 的 这 
个 有 向 版 本 上 ， 然 后 把 这 个 版 本 归 约 到 HC 的 标准 (或 无 向 ) 版 本 上 。 

问题 ， 有 向 哈密 顿 回路 问题 (DHC)。 
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HA: 有 向 图 G。 
输出 :“ 是 ” 当 且 仅 当 G 中 存在 有 向 回路 经 过 G 每 个 顶点 恰好 一 次 。 
归 约 来 自 ，3SAT。 


定理 10.21 有 向 哈密 顿 回路 问题 是 NP 完全 的 。 

证 明 ”证明 DHC 属 于 XP， 这 是 容易 的 ， 猜 测 回路 并 验证 所 需要 的 箭 弧 都 在 图 中 出 现 。 必 须 
把 3SAT 归 约 到 DHC， 这 个 归 约 需要 构造 复杂 的 图 ， 用 “小 配件 ”( 或 专用 子 图 ) 来 表示 3SAT 实 
例 中 每 个 文字 和 每 个 子 句 。 

为 了 开始 从 一 个 3-CNF 布 尔 表达 式 构造 一 个 DHC 实 例 ， 设 表达 式 是 E =e, AeA Ae 其 中 
每 个 ei 都 是 子 句 ， 即 三 个 文字 之 和 ， 例 如 ei = (an + ap + an). Wx, Xa, …, 为 是 瑟 的 变 元 。 如 图 10- 
9 所 示 ， 为 每 个 子 句 和 每 个 变 元 都 构造 出 一 个 “小 配件 "。 





c) 


图 10-9 在 哈密 顿 回 路 问题 是 NP 完 全 的 证 明 中 使 用 的 构造 


对 于 每 个 变 元 %， 构 造 具 有 如 图 10-9a 所 示 结 构 的 子 图 且 。 这 里 ，m EEE pa MLB x, 
出 现 次 数 之 中 较 大 者 。 在 两 列 顶 点 bp 和 c 中 ， 在 by 和 cy 之 间 ， 在 两 个 方向 上 都 有 箭 弧 。 而 且 每 个 
MARR HARM, MAB] < mw， 就 有 从 by 到 cij+ MIM. KE, MFI < mw， 从 cy 到 bi,j+1 
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有 箭 弧 。 最 后 ， 还 有 上 端 顶点 ci，wi 到 bo 和 cw WAMA, EFIA d, Moim; 和 cm 到 di 都 
ARM. 

图 10-9b 勾 画 了 整个 图 的 结构 。 每 个 六 边 形 表示 一 个 对 应 于 变 元 的 小 配件 ， 这 个 小 配件 具有 图 
10-9a 的 结构 。 一 个 小 配件 的 下 端 顶 点 有 到 下 一 个 小 配件 的 上 端 顶点 的 稍 弧 ， 这 些 箭 弧 组 成 回路 。 

假设 图 10-9b 的 图 具有 有 向 哈密 顿 回路 。 还 可 假设 同 路 从 w 开 始 。 如 果 这 条 回路 下 一 步 到 达 
bio， 则 断言 这 条 回路 必须 接着 到 达 cwo， 因 为 假如 不 是 这 样 ， 则 cw 永远 不 会 在 回路 中 出 现 。 在 证 
明 中 注意 ， 如 果 这 条 回路 从 a 到 bi 到 cn， 则 ci 的 两 个 前 驱 (Batibo) 都 已 经 在 回路 上 了 ， 所 
以 这 条 回路 永远 不 能 包括 cio。 

因此 ， 如 果 这 条 回路 从 a, bw 开始 ， 则 这 条 回路 必须 沿 着 “梯子 ”继续 向 下 ， 在 两 边 来 回 交 
替 , 成 为 


as bas Ca bi cn 


如 果 这 条 回路 从 ci, co 开始 ， 则 按照 在 同一 屋 上 c 在 b 前 面 的 顺序 ， 沿 着 “梯子 ”向 下 ， 成 为 

+ Crp» bos Cay bs s Cims Pigs A 
这 个 证 明 中 的 关键 之 处 在 于 : 可 以 认为 第 一 种 顺序 ， 即 从 c 到 下 一 层 的 »， 仿 佛 让 这 个 小 配件 对 
应 的 变 元 为 真 ， 而 从 b 到 下 一 层 c 的 顺序 ， 对 应 于 让 这 个 变 元 为 假 。 

在 遍历 了 小 配件 有 之 后 ， 这 条 回路 必须 到 达 a， 在 这 里 有 另 一 次 选择 ， 下 一 步 到 达 bw 或 cx。 
但 对 于 i 曾 论证 过 ， 一 旦 做 出 从 a 向 左 还 是 向 右 的 选择 ， 则 经 过 有 H; 的 路 径 就 固定 了 。 在 一 般 情 
况 下 ， 如 果 不 打算 让 某 个 顶点 不 可 达 ， 即 这 个 顶点 不 可 能 在 有 向 哈密 顿 回 路 中 出 现 ， 因 为 其 所 
有 前 驱 都 已 经 出 现 了 ， 那 么 当 进入 Hi, 时 ， 就 不 得 不 选择 向 左 还 是 向 右 ， 而 别 无 其 他 选择 。 

在 接 下 来 的 讨论 中 ， 可 以 认为 ， 做 出 从 a 到 bo 的 选择 ， 就 是 让 变 元 x 为 真 ， 而 选择 从 a 到 cn， 
就 等 于 让 变 元 x 为 假 ， 这 样 做 是 有 帮助 的 。 因 此 ， 图 10-9b 恰 好 有 2" 个 有 向 哈密 顿 上 回路， 对 应 着 n 
个 变 元 的 2" 种 赋值 。 

但 是 ， 图 10-9b 只 是 为 3-CNF 表 达 式 E 而 产生 的 图 的 轮廓 。 如 图 10-9c 所 示 ， 对 于 每 个 子 句 e 引 
入 另 一 个 子 图 。 小 配件 /具有 性 质 ， 如 果 回 路 从 ry 进入 ， 则 这 条 回路 一 定 从 岂 离 开 ， 如 果 回路 
从 5 进入 ， 则 一 定 从 离开 ， 如 果 回 路 从 进入 , 则 一 定 从 岁 离开。 证 明 如 下 。 如 果 回 路 进入 后 ， 
无 论 怎样 在 5 内 穿行 ， 但 是 不 从 进入 时 那个 顶点 下 方 的 顶点 离开 ， 则 一 个 或 多 个 顶点 是 不 可 达 
的 ， 即 这 些 顶 点 永远 不 出 现在 回路 上 。 由 于 对 称 性 ， 可 以 只 考虑 六 是 5 在 回路 上 的 第 一 个 顶点 的 
情形 。 有 三 种 情形 ， 

1. 在 回路 上 ， 接 下 来 两 个 顶点 是 5 和 w)。 如 果 回 路 接着 到 达 wj 并 离开 ， 则 是 不 可 达 的 。 如 

果 回路 接着 到 达 w 和 vw 并 离开 / ， 则 ww 是 不 可 达 的 。 因 此 ， 回 路 一 定 在 遍历 了 小 配件 的 六 
个 顶点 之 后 从 志 离 开 /。 

2. 在 之 后 ， 接 下 来 两 个 顶点 是 5 和 vw 。 如 果 回 路 不 接着 到 达 u ， 则 必 成 为 不 可 达 的 。 如 果 
在 之后， 回路 接着 到 达 wi ， 则 永远 不 能 出 现在 回路 上 。 其 论证 是 不 可 达 性 论证 的 “ 逆 "。 
现在 ， 能 从 外 面 到 达 # ， 但 如 果 回路 在 以 后 包含 # ， 则 接 下 来 将 没有 顶点 可 以 为 继 ， 因 为 
的 两 个 后 继 顶 点 都 已 经 出 现在 回路 上 了 。 因 此 ， 在 这 种 情形 下 ， 回 路 也 从 志 离 开 / 。 但 是 
注意 ， 剩 下 和 wj 还 没有 经 过 ， 这 两 个 顶点 将 在 以 后 出 现在 回路 上 ， 这 是 可 能 的 。 
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3. 回路 从 直接 到 达 w) 。 如 果 回路 接着 到 达 w ， 则 永远 不 能 出 现在 回路 上 ， 因 为 在 情形 (2) 
中 曾 论 证 过 ，5# 的 两 个 后 继 顶 点 都 已 经 出 现在 回路 上 了 。 因 此 ， 在 这 种 情形 下 ， 回 路 一 定 
直接 从 专 离 开 /;， 剩 下 其 余 四 个 顶点 在 以 后 加 入 到 回路 上 。 

为 了 完成 构造 表达 式 E 的 图 G， 把 ;连接 到 HH) 如下: 假设 在 子 句 ej 中 第 一 个 文字 是 非 否 定 变 
元 5 。 对 于 在 0 到 mi 一 1 范围 内 的 p， 挑 选 某 个 顶点 cp，cw 还 没有 用 于 连接 到 一 个 1 小 配件 的 目的 。 
引入 从 cp 到 六 和 从 巧 到 六 w+ 的 箭 弧 。 如 果子 名 5 的 第 一 个 文字 是 否定 变 元 互 ， 则 找 出 一 个 没有 
用 过 的 bw。 把 姑 连 接 到 六 并 把 必 连 接 到 ciw+i。 

对 于 e 的 第 二 个 和 第 三 个 文字 ， 把 同样 的 东西 加 入 图 中 ， 但 有 一 点 例外 。 对 于 第 二 个 文字 ， 
使 用 顶点 5 和 w ， 对 于 第 三 个 文字 ， 使 用 顶点 ;和 wj 。 因 此 ， 每 个 /到 小 配件 有 三 个 连接 ， 分 别 
表示 子 名 6 中 涉及 的 三 个 文字 。 如 果 文 字 是 非 否定 的 ， 则 这 样 的 连接 来 自 一 个 c 顶 点 并 返回 下 面 
的 b 顶 点， 如 果 文 字 是 否定 的 ， 则 这 个 连接 来 自 一 个 5 顶点 并 返回 下 面 的 c 顶 点 。 断 言 : 


* 如 此 构造 的 图 G 具 有 有 向 哈密 顿 回路 ， 当 且 仅 当 表达 式 E 是 可 满足 的 。 


( 当 ) 假设 存在 E 的 可 满足 赋值 7。 构 造 有 向 哈密 顿 回路 如 下 : 

1. 首 先 根据 赋值 7 构造 只 遍历 局 ( 即 图 10-9b 中 的 图 ) 的 路 径 。 也 就 是 说 ， 如 果 Ttx ) = 1， 则 

回路 从 w 到 bo， 如 果 Ttx) =0， 则 回路 从 w 到 co。 

2. 但 是 ， 如 果 迄 今 为 止 所 构造 的 回路 经 过 从 pw 到 ci , o IRIM, Eby 发 出 另 一 条 箭 弧 通 向 

还 没有 包含 在 回路 中 的 / ， 则 在 回路 中 引入 “绕道 ”"， 这 条 绕道 把 /的 六 个 顶点 都 包含 在 
回路 中 ， 返 回 ci , BERM cipe ,将 不 再 在 回路 上 ， 但 是 这 条 箭 绝 的 端点 都 还 在 
回路 上 。 

3. 同样 ， 如 果 回路 有 从 cp SND,» « 1 的 箭 弧 ， 且 cw 发 出 另 一 条 箭 弧 通 向 还 没有 合并 在 回路 中 的 

汪 ， 则 修改 回路 ,“ 绕 道 ”经 过 7 的 六 个 顶点。 

7 满足 5 这 个 事实 确保 了 步骤 (1 所 构造 的 原始 路 径 将 包含 至 少 一 条 箭 弧 ， 这 条 箭 弧 在 步 又 (2) 
或 步骤 (3) 中 允许 对 于 每 个 子 句 e 包含 厂 。 因 此 ， 所 有 都 包含 在 回路 中 ， 这 条 回路 成 为 有 向 哈密 
顿 回路 。 

( 仅 当 ) 现在 ,假设 图 6 具有 有 向 哈密 顿 回 路 。 必 须 证 明 E 是 可 满足 的 。 首 先 ， 从 迄今 为 目 
所 做 的 分 析 中 回忆 两 个 要 点 : 

1. 如 果 哈 密 顿 回路 从 广 , 忆 或 5 进入 某 个 厂 ， 则 这 条 回路 一 定 相应 地 从 忆 , 世 或 必 离 开 1。 

2. 因此 ， 如 果 认 为 哈密 顿 回路 穿 过 也 小 配件 的 回路 (如 图 10-9b 所 示 )， 则 可 以 认为 ， 该 路 

线 到 某 个 1 的 行程 似乎 是 沿 着 与 箭 弧 bo 一 cjw*; 或 cp 一 户 p*, 之 一 “平行 ”的 箭 弧 的 回路 。 

如 果 忽略 了 到 的 行程 ， 则 哈密 顿 回路 一 定 只 使 用 太 可 能 有 的 2* 个 回路 中 的 二 个 。 这 些 选 择 
每 个 都 对 应 于 对 E 变 元 的 赋值 。 如 果 这 些 选择 中 的 一 个 产生 包含 /的 哈密 顿 回路 ， 则 这 个 赋值 一 
定 满足 E。 

原因 在 于 ， 如 果 回路 从 a 到 bo， 那 么 车 第 j 个 子 句 把 x; 作为 其 三 个 变 元 之 一 ， 则 回路 只 能 走 
到 1 。 如 果 回路 从 a, 到 ca， 那么 若 第 /个 子 句 把 不 作为 其 三 个 变 元 之 一 ， 则 回路 只 能 走 到 。 因 此 ， 
可 以 包含 所 有 小 配件 ， 这 个 事实 蕴涵 着 ,赋值 让 每 个 子 句 的 三 个 文字 中 至 少 一 个 为 真 ， 即 E 是 
可 满足 的 。 口 
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例 10.22 ”基于 3-CNF 表 达 式 已 = (x, +x, +x) +X, +x) 来 给 出 定理 10.21 的 构造 的 非常 简 
单 的 例子 。 构 造 的 图 如 图 10-10 所 示 。 虽 然 连 接 刀 类 型 小 配件 和 类 型 小 配件 的 箭 弧 用 虚线 表示 ， 
以 改进 可 读 性 ， 但 是 在 虚线 箭 弧 与 实 线 箭 弧 之 间 没有 其 他 区 别 。 

例如 ， 在 左上 方 看 到 zm 的 小 配件 。 因 为 xi 一 次 否定 出 现 ， 一 次 肯定 出 现 , “梯子 ” 只 需要 一 
步 ， 所 以 有 两 行 b 和 c。 在 左下 方 看 到 xm 的 小 配件 ,za 两 次 肯定 出 现 ， 没 有 否定 出 现 。 因 此 ， 需 要 
两 个 不 同 的 箭 弧 cy 一 sw*:， 可 以 用 这 两 个 稍 弧 连 上 1 和 z 的 小 配件 ， 来 表示 在 这 些 子 句 中 使 用 ma。 
这 就 是 为 什么 的 小 配件 需要 三 个 b 一 c 行 。 

考虑 小 配件 五 ， 这 个 小 配件 对 应 于 子 名 (二 + 天 + 为) 。 对 于 第 一 个 文字 不 ， 把 bio 连 到 ry 并 把 
岂 连 到 cu。 对 于 第 二 个 文字 N, ， 同 样 连接 bao, w, w, ca。 第 三 个 文字 〈 是 肯定 的 ) 连 到 下 面 的 c 和 
by 即 把 ca 连 到 e 并 把 w 连 到 bo。 

若干 个 可 满足 赋值 中 的 一 个 是 xm = 1, za = 0, x3 = 0。 对 于 这 个 赋值 ， 第 一 个 子 句 被 其 第 一 个 
文字 x 所 满足 ， 而 第 二 个 子 句 被 其 第 二 个 文字 元 所 满足 。 对 于 这 个 赋值 ， 能 设计 出 让 箭 弧 a 一 
bio, qz 一 cw, qs 一 cw 都 在 上 面 出 现 的 哈密 顿 回路 。 这 个 回路 从 可, 绕 到 1， 以 覆盖 第 一 个 子 句 ， 即 这 
个 绕道 使 用 箭 弧 cn 一 六 ， 行 遍历 1 的 所 有 项 点， 返回 pu。 从 肋 到 有 的 绕道 覆盖 第 二 个 子 句 ， 从 箭 
弧 b2o 一 ?开始 ， 行 遍历 /的 所 有 项 点， 返回 cxi。 在 图 10-10 中 ， 整 个 哈密 顿 回路 用 粗 线 ( 实 线 或 
虚线 ) 和 非常 大 的 箭头 来 表示 。 口 





图 10-10 哈密 顿 回 路 构造 的 例子 




















|459] 








470] 
a 








472| 








Download at http://www.pin5i.com/ 


322 #lio# 





10.4.5 无 向 哈密 顿 回路 与 TSP 


证 明 无 向 哈密 顿 回 路 问题 和 货 郎 问题 也 是 NP 完 全 的 ， 是 相当 容易 的 。 在 10.1.4 节 已 经 看 到 
TSP 属 于 XP。HC 是 TSP 的 特殊 情形 ， 所 以 HC 也 属于 XP。 必 须 完成 从 DHC 到 HC 和 从 HC 到 TSP 的 
归 约 。 

问题 : 无 向 哈密 顿 回 路 问题 。 

输入 : 无 向 图 G。 

输出 :“ 是 ” 当 且 仅 当 G 有 哈密 顿 回 路 。 

归 约 来 自 ， DHC。 


定理 10.23 HC 是 NP 完全 的 。 
证 明 ”把 DHC 归 约 到 HC 和 如下。 假设 给 定 有 向 图 Gs。 所 构造 的 无 向 图 将 称 为 G,。 对 于 Gs 的 每 
一 个 顶点 v， 在 Gs 中 存在 着 三 个 顶点 v%, vO, vm。G, 的 边 是 : 


1. 对 于 Gi 的 所 有 项 点 v， 在 G, 中 存在 着 边 (wo, VRO va), (9) GA 
2. 如 果 在 Gu 中 有 箭 匠 5-w， 则 在 G, 中 有 边 (2 wi, 
图 10-11 提 示 边 的 模式 ， 包 括 对 应 于 稍 弧 v 一 w 的 边 。 @) GA) 
显然 ， 从 0G 到 6G, 的 构造 能 在 多 项 式 时 间 内 完成 。 必 须 证 明 ， 
“0. 有 哈密 邮 回 路 ， 当 且 仅 当 Gy 有 有 向 哈密 顿 上 路 。 S 四 
( 当 ) 假设 ww，…s AA I FERE 

WO, vy, v4), vo, vs, vo), v9, wo ws val), vy ee 


是 C, 中 的 无 向 哈密 顿 回路 。 也 就 是 说 ， 沿 每 列 向 下 ， 然 后 跳 到 下 一 列 项 上 ， ”到 阶 0 的 边 
就 模拟 G4 的 一 条 箭 弧 。 

( 仅 当 ) ER, G 的 每 个 顶点 ww 只 有 两 条 边 ， 因 此 车 wV/ 在 哈密 顿 回路 中 出 现 ， 则 一 定 把 v0 
Fv?) 其 中 一 个 作为 直接 前 驱 ， 另 一 个 作为 直接 后 继 。 因 此 G, 的 哈密 顿 回路 的 顶点 的 上 标 ， 一 定 
在 模式 0, 1, 2, 0, 1, 2, … 或 相反 的 模式 2, 1, 0, 2, 1,0, … 之 间 变化 。 因 为 这 些 模式 对 应 着 沿 两 个 不 
同方 向 来 遍历 回路 ， 所 以 也 可 以 假设 模式 是 0, 1, 2,0, 1,2, …。 因此 ， 如 果 考 虑 回路 中 从 上 标 为 2 
的 顶点 到 上 标 为 0 的 顶点 之 间 的 边 ， 则 可 以 知道 ， 这 些 边 是 Gs 中 的 箭 弧 ， 并 且 回 路 沿 着 箭 弧 所 指 
的 方向 经 过 每 一 条 边 。 因 此 ，C 中 的 无 向 哈密 顿 回路 就 产生 Gu 中 的 有 向 哈密 顿 回路 。 o 


问题 ， 货 郎 问题 。 

输入 : 边 带 整数 权 的 无 向 图 G， 限 度 k。 

输出 :“ 是 ” 当 且 仅 当 G 有 哈密 顿 回 路 ， 使 得 回路 上 边 的 总 权 不 超过 k。 
HAKA: HC 


定理 10.24 货 郎 问题 是 NP 完 全 的 。 
证 明 来 自 HC 的 归 约 如 下 。 给 定 图 G， 构 造 带 权 图 G'， 其 项 点 和 边 与 G 的 相同 ， 每 条 边 权 为 
1， 限 度 k 等 于 G 的 顶点 数 %。 于 是 ，G 有 长 度 为 的 哈密 顿 回路 当 且 仅 当 G 有 哈密 顿 回路 。 口 
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10.4.6 NP 完 全 问题 小 结 


图 10-12 标 明了 在 本 章 中 完成 的 所 有 归 约 。 注意, 已 经 揭示 了 从 所 有 具体 问题 (比如 TSP) 
到 SAT 的 归 约 。 在 这 之 前 ， 在 定理 10.19 中 ， 已 经 把 每 一 个 多 项 式 时 间 非 确定 型 图 灵机 都 归 约 
到 SAT。 没 有 明确 地 指出 ， 这 些 图 灵机 中 至 少 包括 一 个 解答 TSP 的 、 一 个 解答 IS 的 等 等 。 因 
此 ， 所 有 NP 完全 问题 彼此 之 间 都 有 多 项 式 时 间 归 约 ， 实 际 上 ， 都 是 同一 个 问题 的 不 同 
“面孔 ”。 
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图 10-12 NP 完 全 问题 之 间 的 归 约 


10.4.7 习题 


* 习题 10.4.1 ”一 个 图 G 的 k 团 是 G 的 k 个 顶点 的 集合 ， 使 得 这 个 集合 中 每 对 顶点 之 间 都 有 边 。 
因此 ，2 团 就 是 用 边 连 接 的 2 个 顶点 ，3 团 就 是 三 角形 。CLIQUE 问 题 是 : 给 定 一 个 图 G 和 常数 k， 
CHAKA? 

a) 对 于 图 10-1 中 的 图 G， 满 足 CLIQUE 的 最 大 k 是 多 少 ? 
b) 作为 4 的 函数 ， 一 个 k 团 有 多 少 条 边 ? 
0) 通过 把 顶点 覆盖 问题 归 约 到 CLIQUE 来 证 明 ， CLIQUE 是 NP 完全 的 。 

4#! 习题 10.4.2 FEMME: 给 定 一 个 图 G 和 一 个 整数 k，G 是 否 “k 可 着 色 ”y 也 就 是 说 ， 能 否 
给 G 的 每 个 顶点 分 配 k 种 颜色 中 的 一 种 ， 使 得 每 一 条 边 的 两 个 端点 都 有 不 同 颜 色 ? 例 如， 图 10-1 
的 图 是 3 可 着 色 的 ， 因 为 能 给 顶点 1 和 4 分 配 红 色 ， 给 顶点 2 绿色 ， 给 顶点 3 蓝 色 。 一般 说 来 ， 如 果 
一 个 图 有 k 团 ， 则 这 个 图 不 能 低 于 kt 可 着 色 ， 但 是 可 能 需要 远 远 超过 k 种 颜色 。 

在 本 习题 中 ， 将 给 出 部 分 构造 来 证 明 着 色 问 题 是 NP 完全 的 ， 剩 余 的 构造 必须 由 读者 补 上 。 
归 约 来 自 3SAT。 假 设 有 个 带 n 个 变 元 的 3CNF 表 达 式 。 归 约 把 这 个 表达 式 转 换 为 图 , 图 的 一 部 分 
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如 图 10-13 所 示 。 在 左 方 看 到 n + 1 个 顶点 co, c1, …, Ce 构成 (x + D 团 。 因 此 ， 必 须 用 不 同 的 颜色 来 
给 这 些 顶 点 中 的 每 一 个 着 色 。 将 把 分 配给 c; 的 颜色 当 作 “颜色 cj”。 





图 10-13 证 明 着 色 问题 是 NP 完 全 的 部 分 构造 


而 且 ， 对 于 每 个 变 元 %， 都 存在 两 个 顶点 ， 可 以 被 分 别 认为 是 如 和 不 。 这 两 个 顶点 用 边 连 
接 ， 所 以 不 能 同色 。 而 且 ， 对 于 除 0 和 i 之 外 的 所 有 j， 每 个 顶点 都 连接 到 c) 。 结 果 就 是 ， 在 x 和 
Hx, ， 必 须 一 个 着 色 co， 另 一 个 着 色 cl。 把 着 色 cu 的 一 个 当 作 真 ， 另 一 个 当 作假 。 因 此 ， 选 择 的 
着 色 就 对 应 于 赋值 。 

为 了 完成 构造 ， 读 者 需要 设计 对 应 于 表达 式 每 个 子 句 的 那 部 分 图 。 应 当 是 ， 有 可 能 只 用 co 到 
Cn 的 颜色 来 完成 这 个 图 的 着 色 ， 当 且 仅 当 所 选择 颜色 对 应 的 赋值 使 得 每 个 子 句 都 为 真 。 因 此 ， 
所 构造 的 图 是 (n+ 1 可 着 色 的 ， 当 且 仅 当 给 定 的 表达 式 是 可 满足 的 。 

! 习题 10.4.3 在 关于 一 个 图 的 NP 完 全 的 提问 变 成 非常 难以 用 手工 来 解答 之 前 ， 这 个 图 其 实 不 
必 很 大 。 考 虑 图 10-14 中 的 图 。 
*a) 这 个 图 有 哈密 顿 回路 吗 ? 

b) 最 大 独立 集 是 什么 ? 

c) 最 小 顶点 覆盖 是 什么 ? 

由 最 小 边 覆 盖 (参见 习题 10.4.4b)) 是 什么 ? 

©) 这 个 图 是 2 可 着 色 的 吗 ? 

习题 10.4.4 证 明 下 列 问题 是 NP 完全 的 : 

引子 图 同 构 问题 : 给 定 图 G1 和 G:，G1 是 否 包含 Gs 作为 子 图 ? 也 就 是 说 ， 当 适当 选择 从 G; 顶 

点 到 G1 子 图 顶点 之 间 的 对 应 关系 时 ， 能 否 找到 Gi 顶点 的 一 个 子 集 以 及 这 些 顶 点 之 间 的 Gi 
边 ， 来 一 起 构成 G: 的 一 个 精确 的 副本 ? 提示 : 考虑 来 自习 题 10.4.1 的 团 问题 的 归 约 。 

!b) 反馈 边 问题 : 给 定 一 个 有 向 图 G 和 一 个 整数 E，G 有 没有 k 条 有 向 边 的 集合 ， 使 得 G 的 每 个 

回路 都 至 少 有 一 条 有 向 边 属于 这 个 集合 ? 

$c) 整数 线性 规划 问题 : 给 定形 如 Z?,az SCRE a,x, >c 的 线性 约束 条 件 的 集合 ， 其 中 和 ec 

都 是 整数 常数 ，m, xa …, x 都 是 变 元 ， 是 否 存在 对 于 每 个 变 元 的 整数 赋值 ， 使 得 所 有 约 
RA MAR 
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图 10-14 一 个 图 


1d) 支配 集 问题 ,给 定 一 个 图 G 和 一 个 整数 :，G 有 没有 k 个 顶点 的 子 集 5， 使 得 G 的 每 个 顶点 都 
属于 5 或 与 5 中 顶点 相 邻 ? 

e) 消防 站 问题 给 定 一 个 图 C， 一 个 距离 4， 以 及 一 个 “消防 站 数 ”预算 f， 能 否 选择 G 的 /个 
顶点 ， 使 得 G 每 个 顶点 都 与 某 个 消防 站 距离 (必须 经 过 的 边 数 ) 不 超过 d? 

所 人 ) 半 团 问题 ,给 定 一 个 带 n 个 顶点 的 图 G，G 有 没有 由 G 的 恰好 一 半 顶 点 组 成 的 团 (参见 习题 
10.4.1) ? 提示 : 把 CLIQUE 归 约 到 半 团 问题 。 必 须 想 出 如 何 加 入 顶点 来 调节 最 大 团 的 规 
模 。 

Ng) 单位 执行 时 间 调度 问题 : SEK “PEL” Ti, To, …, Tt， 一 个 “处 理 器 ” 数 p， 一 个 “时 
间 限 度 ”+， 以 及 作业 对 之 间 形 如 7 < 7 的 “优先 性 约束 条 件 ”"， 有 没有 作业 的 一 个 调度 ， 
使 得 : 

1. 每 个 作业 都 分 配 到 1 与 之 间 的 一 个 时 间 单位 ， 

2. 任何 一 个 时 间 单位 都 至 多 分 配 到 p 个 作业 ， 并 且 

3. 服 从 优先 性 约束 条 件 ， 也 就 是 说 ， 如 果 T;< 了 是 约束 条 件 ， 则 把 Ti 分配 到 比 D 早 的 时 间 单 
位 ? 

Wh) 恰当 覆盖 问题 : 给 定 一 个 集合 S 和 5 的 子 集 族 51, So, …, 5,， 是 否 存在 一 个 集 族 T 5 {51, S2 
…,5,}， 使 得 5 的 每 个 元 素 都 恰好 属于 7 的 一 个 成 员 ? 

Ni) 背包 问题 ， 给 定 k 个 整数 的 一 个 列表 ii, fa, …, i， 能 否 将 这 些 整数 分 成 总 和 相等 的 两 个 集 
A? 注意 ; 这 个 问题 表面 上 属于 PZ， 因为 可 能 假设 整数 本 身 都 较 小 。 的 确 ， 如 果 整 数 的 值 
都 限制 为 整数 个 数 K 的 某 个 多 项 式 ， 则 存在 多 项 式 时 间 算法 。 但 是 ， 在 总 长 度 为 pn， 用 二 进 
制 表示 的 k 个 整数 的 列表 中 ， 有 些 整 数 的 值 可 能 几乎 是 n 的 指数 。 

习题 10.4.5 一 个 图 G 的 哈密 顿 通路 是 全 部 顶点 m, m, …, nm 的 一 个 排列 ， 使 得 对 于 所 有 i = 1, 
2,…,k 一 1， 从 m 到 m*, 有 边 。 有 向 图 的 有 向 哈密 顿 通路 是 同样 定义 的 ;但 必须 从 六 到 ms+: 有 箭 弧 。 
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注意 ， 哈 密 顿 通路 的 要 求 只 稍 弱 于 哈密 顿 回 路 的 条 件 。 如 果 还 要 求 从 nm Bl BRAM, MH 
好 就 是 哈密 顿 回路 的 条 件 。( 有 向 ) 哈密 顿 通路 问题 是 : 给 定 (有 向 ) 图 ， 这 个 图 是 否 至 少 有 一 
条 (有 向 ) 哈密 顿 通路 ? 
*a) 证 明 : 有 向 哈密 顿 通路 问题 是 NP 完全 的 。 提 示 ; 完成 来 自 HDC 的 归 约 。 选 择 任意 一 个 顶 
点 ， 将 这 个 顶点 分 成 两 个 顶点 ， 使 得 这 两 个 顶点 一 定 是 有 向 哈密 顿 通路 的 端点 ， 并 且 存 
在 这 样 的 通路 当 且 仅 当 原 图 具有 有 向 哈密 顿 回路 。 
b) 证 明 : (无 向 ) 哈密 顿 通路 问题 是 NP 完全 的 。 提 示 : 改造 定理 10.23 的 归 约 。 
所 5) 证 明 下 面 的 问题 是 NP 完全 的 ;给 定 一 个 图 G 和 一 个 整数 :，G 有 没有 叶 顶 点 数 不 超 过 k 的 生 
成 树 ? 提示 : 完成 来 自 哈密 顿 通路 问题 的 归 约 。 
!d) 证明 下 面 的 问题 是 NP 完 全 的 : 给 定 一 个 图 G 和 一 个 整数 4，G 有 没有 顶点 度数 都 不 超过 d 
的 生成 树 ? (顶点 x 在 生成 树 中 的 度数 是 树 中 以 为 端点 的 边 数 。) 


10.5 小 结 


oP 类 和 NPR: P 由 所 有 在 某 个 多 项 式 时 间 (作为 输入 长 度 的 函数 ) 内 运行 的 图 灵机 所 接 
受 的 语言 或 问题 组 成 。X2 是 沿 着 任何 非 确定 型 选择 序列 花费 的 时 间 都 具有 多 项 式 时 间 界 
限 的 非 确定 型 图 灵机 所 接受 的 语言 或 问题 的 类 。 

“2 = WP 问题 ， 虽然 人 们 强烈 地 怀疑 ， 存 在 着 属于 Xe 但 不 属于 2 的 语言 ， 但 是 还 不 知道 ， 
PA NP 到 底 是 不 是 相同 的 语言 类 。 

“多 项 式 时 间 归 约 : 如 果 在 多 项 式 时 间 内 ， 可 以 把 一 个 问题 的 实例 变换 成 具有 相同 答案 (是 
RE) 的 第 二 个 问题 的 实例 ， 则 说 第 一 个 问题 多 项 式 时 间 归 约 到 第 二 个 问题 。 

“NE 完全 问题 : 如 果 一 个 语言 属于 Xr， 并 且 存在 着 从 每 个 Np 语言 到 这 个 语言 的 多 项 式 时 
间 归 约 ， 则 这 个 语言 是 NP 完全 的 。 人 们 坚信 没有 NP 完全 问题 属于 P， 至 今 没有 人 发 现 儿 
千 个 已 知 NP 完全 问题 中 任何 一 个 问题 的 多 项 式 时 间 算法 ， 这 些 事实 共同 加 强 了 NP 完全 问 
题 都 不 属于 ?的 证 据 。 

“NP 完全 的 可 满足 性 问题 通过 在 多 项 式 时 间 内 ， 把 所 有 X 问题 都 归 约 到 SAT 问 题 ， 库 克 
定理 证 明了 第 一 个 NP 完全 问题 (布尔 表达 式 是 否 可 满足 )。 即 使 表达 式 限于 由 各 自 只 含 三 
个 文字 的 子 名 的 乘积 组 成 (3SAT 问 题 )， 这 个 问题 仍然 是 NP 完全 的 。 

“其 他 NP 完 全 问题 : 存在 着 大 量 已 知 的 NP 完 全 问题 ， 利 用 从 某 个 先前 知道 的 NP 完 全 问题 发 
出 的 多 项 式 时 间 归 约 ， 来 证 明 其 中 每 个 问题 都 是 NP 完全 的 。 本 书 给 出 了 证 明 以 下 NP 完全 
问题 的 归 约 : 独立 集 ， 顶 点 覆盖 ,哈密 顿 回路 问题 的 有 向 或 无 向 版 本 ， 货 郎 问题 。 


10.6 参考 文献 
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中 提 到 的 下 列 问题 的 解答 团 ， 边 覆盖 ， 背 包 问 题 ， 着 色 ， 人 恰当 覆盖 。 

关于 哪些 问题 是 NP 完全 的 ， 以 及 哪些 特殊 情形 是 多 项 式 时 间 的 ，Garey 和 Johnson 的 书 [4] 总 
结 了 大 量 的 已 知事 实 。 在 [5] 中 是 关于 在 多 项 式 时 间 内 求 NP 完全 问题 近似 解 的 文章 。 

应 当 指 出 对 于 NP 完全 性 理论 的 其 他 几 项 贡献 。 研 究 用 图 灵机 运行 时 间 定 义 的 语言 类 开始 于 
Hartmanis 和 Stearns[8]。Cobham[2] 从 带 有 具体 多 项 式 (比如 O(m?)) 运行 时 间 的 算法 中 ， 首 次 提 
炼 出 2 类 的 概念 。 列 文 [四 独立 但 稍 晚 地 发 现 了 NP 完全 性 思想 。 

整数 线性 规划 的 NP 完全 性 (习题 10.4.4(c)) 出 现在 [中 和 J. Gathen 和 M. Sieveking 的 未 经 发 
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第 11 章 其 他 问题 类 


难 解 问题 并 不 仅 限于 Nr 。 有 许多 其 他 的 问题 类 也 是 难 解 的 ， 或 者 由 于 其 他 一 些 原因 而 使 人 
感 兴趣 。 例 如 2 了 =P 问题 ， 有 许多 关于 这 些 类 的 问题 还 没有 解决 。 

首先 看 与 2 和 NP 关系 密切 的 一 个 类 :XP 语言 的 补 的 类 ， 通 常 称 之 为 NP 补 (co-NP) 。 。 
如 果 P=NE ， 则 co-XP 等 于 二 者 ， 因 为 2 对 于 补 运算 是 封闭 的 。 但 是 co-X 可 能 与 这 两 者 都 不 
同 , 事实 上 NP 完 全 问题 可 能 都 不 属于 co-XP 。 

然后 考虑 PS 类 ， 这 是 所 有 使 用 输入 长 度 的 多 项 式 长 度 的 带 的 图 灵机 所 能 解决 的 问题 。 允 许 
这 些 图 灵机 使 用 指数 长 度 的 时 间 ， 但 只 能 使 用 限制 长 度 的 带 。 与 多 项 式 时 间 的 情形 不 同 ， 可 以 
证 明 当 限制 到 多 项 式 空间 时 ， 非 确定 性 并 不 增强 图 灵机 的 能 力 。 尽 管 25 显然 包含 整个 Nr， 但 
不 知道 25 是 否 等 于 NP， 也 不 知道 PS 是 否 等 于 2。 不 过 估计 这 两 个 等 式 都 不 成 立 ， 可 以 给 出 一 
个 是 罗 完全 的 但 似乎 不 属于 NP 的 问题 。 

然后 转向 随机 算法 以 及 介 于 2 与 XP 之 间 的 两 个 语言 类 。 一 个 类 是 由 “随机 多 项 式 ”语言 组 
成 的 RP 类 。 这 些 语言 都 有 一 种 在 多 项 式 时 间 内 运行 的 利用 “ 抛 硬币 ”或 者 在 实践 中 ) 随机 数 
发 生 器 的 算法 。 这 种 算法 要 么 证 实 输入 是 否 属于 语言 ， 要 么 说 “不 知道 "。 而 且 ， 如 果 输入 属于 
语言 ， 则 算法 以 大 于 0 的 概率 报告 成 功 ， 所 以 重复 运行 这 种 算法 就 将 以 趋 于 1 的 概率 来 证 实 输入 
的 成 员 性 。 

第 二 个 类 被 称 为 2PP ( 零 错误 概率 多 项 式 )， 也 与 随机 化 有 关 。 但 是 这 类 语言 的 算法 要 么 说 
“是 ”( 输 入 属于 语言 )， 要么 说 “ 否 ”( 输 入 不 属于 语言 )。 这 种 算法 的 期 望 运行 时 间 是 多 项 式 的 。 
但 是 这 种 算法 的 有 些 运行 却 可 能 要 花费 超过 任何 多 项 式 界限 所 允许 的 时 间 。 

为 了 把 这 些 概 念 联系 在 一 起 ， 考 虑 素数 性 测试 的 重要 问题 。 现 今 的 许多 密码 系统 都 建立 在 
下 面 这 两 个 条 件 之 上 : 

1. 快 速 发 现 大 素数 的 能 力 (为 了 允许 以 防止 外 人 窃听 的 方式 在 机 器 之 间 通 信 )。 

2. 一 项 假设 : 如 果 以 二 进 制 整数 的 长 度 n 的 函数 来 度量 时 间 ， 那 么 整数 因子 分 解 需 要 指数 

时 间 。 

长 久 以 来 ， 素 数 测试 的 复杂 性 一 直 是 一 个 开放 性 问题 。 一 方面 ， 正 如 我 们 所 看 到 的 ， 素 数 
测试 既 属于 NP 又 属于 co-NP， 因 此 它 似乎 不 是 NP 完全 的 。 然 而 迄今 为 止 这 个 问题 仍然 没有 多 
项 式 时 间 的 算法 。 但 是 ， 有 一 个 精致 的 实用 的 随机 算法 ， 因 此 我 们 下 结论 说 素数 性 测试 问题 是 
属于 RP 的。 最近， 一 个 确定 的 、 多 项 式 时 间 的 素数 测试 问题 的 算法 的 发 现 解决 了 这 种 模棱两可 
的 局 面 。 我 们 将 仅 给 出 随机 的 算法 ， 这 种 算法 在 实践 中 效果 很 好 且 易 于 实现 ， 这 正 是 密码 系统 
的 重要 的 输入 要 求 ， 而 素数 测试 问题 又 是 密码 测试 系统 的 重要 组 成 部 分 。 


”在 下 文中 为 了 在 公式 中 便于 表述 ， 多 用 co-XP 表 示 XP 补 。 一 编者 注 














|484| 














485) 





Download at http://www.pinSi.com/ 


330 RUE 





11.1 NP 中 的 语言 的 补 


2 语言 类 对 于 补 封闭 (参见 习题 10.1.6)。 这 可 以 简单 证 明 如 下 。 设 L 属 于 P, MEREL 
图 灵机 。 修 改 M 以 接受 工 如 下 : 引入 新 的 接受 状态 9， 每 当 M 在 非 接受 状态 下 停机 时 ， 新 的 TM 就 
转移 到 状态 g， 让 M 以 前 的 接受 状态 都 变 成 非 接受 状态 。 经 过 修改 的 图 灵机 接受 工 ， 而 且 与 M 的 
运行 时 间 一 样 ， 有 可 能 多 一 步 移动 。 因 此 ， 若 L 属 于 P， 则 工 也 属于 P。 

不 知道 NP 是 否 对 于 补 封 闵 。 似 乎 不 封闭 ， 特 别 是 估计 当 语言 2 是 NP 完 全 的 时 候 ,Z 的 补 不 
属于 Np。 


11.1.1 NP 补 语言 类 


NP 补 (co-NP) 是 那些 其 补 属于 NP 的 语言 的 集合 。 在 11.1 节 开头 曾 注意 到 每 个 2 中 语言 的 
补 还 属于 2， 因 此 属于 NP。 另 一 方面 ， 相 信 没 有 NP 完全 问题 的 补 NP 完全 问题 
属于 Nr， 因 此 NP 完全 问题 都 不 属于 co-NP 。 与 之 类 似 ， 相 信 NP 
完全 问题 的 补 (依照 定义 属于 co-Np ) 都 不 属于 NP。 图 11-1 给 出 
我 们 相信 的 P. NP 以 及 co-XP 类 的 相关 联 的 方式 。 不 过 应 当 记 住 ， 
一 旦 证 明 2 等 于 Nr， 所 有 这 三 个 类 其 实 就 是 同一 个 类 。 


例 11.1 考虑 SAT 语 言 的 补 ， 这 个 补 肯定 属于 co-XP 。 称 这 个 
补 为 USAT (不 可 满足 的 )。USAT 中 的 串 包括 所 有 表示 不 可 满足 
的 布尔 表达 式 的 囊 。USAT 中 的 串 也 包括 不 表示 有 效 布尔 表达 起 
的 串 ， 因 为 的 确 这 些 串 都 不 属于 SAT。 我 们 相信 USAT 不 属于 NP, 
却 没 有 证 明 。 NP 完全 问题 的 补 

另外 一 个 例子 被 怀疑 属于 co-W 而 不 属于 NP 的 问题 是 TAUT， 图 11-1 猜测 的 co- NP 与 其 他 
这 个 问题 是 所 有 那些 是 重 言 式 ( 即 对 于 每 种 赋值 都 为 真 ) 的 ( 编 语言 类 之 间 的 关系 
码 过 的 ) 布尔 表达 式 的 集合 。 注 意 ， 表 达 式 E 是 重 言 式 ， 当 且 仅 当 -E 是 不 可 满足 的 。 因 此 ， 
TAUT 和 USAT 有 这 样 的 关系 : 只 要 布尔 表达 式 E 属 于 TAUT， 则 -E 就 属于 USAT， 反 之 亦 然 。 但 
是 USAT 也 包含 不 表示 有 效 表达 式 的 串 ， 而 TAUT 中 所 有 的 串 都 是 有 效 表 达 式 。 o 


11.1.2 NP 完全 问题 与 Xp 补 


假设 ? 关 XP。 关 于 NP th (co-NP) 的 情况 仍然 有 可 能 不 是 恰好 如 图 11-1 所 示 ， 因 为 可 能 Xp 
等 于 co 而 大 于 ?。 也 就 是 说 ， 读 者 也 许 会 发 现 ; 与 USAT 和 TAUT 类 似 的 问题 可 以 在 非 确定 型 
多 项 式 时 间 内 解决 ( 即 这 些 问 题 属于 Nr)， 却 不 能 在 确定 型 多 项 式 时 间 内 解决 。 但 是 ， 我 们 其 
至 连 一 个 补 属于 NP 的 NP 完全 问题 都 还 没有 发 现 ， 这 个 事实 是 NP co-NP 的 强 有 力 证 据 ， 正 如 
在 下 一 个 定理 中 所 证 明 的 那样 。 


定理 11.2 NP=co-XP ， 当 且 仅 当 某 个 NP 完全 问题 的 补 属 于 XP 。 
证 明 (0) 假设 NP 和 co-XP 是 相等 的 ， 则 每 个 NP 完全 问题 上 (属于 Xp) 都 肯定 属于 
CO-NP o CO-NP 问题 的 补 属于 Nr， 所 以 L 的 补 属 于 NP. 
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( 当 ) 假设 P 是 NP 完全 问题 ，P 的 补 PRF Nr。 则 对 于 每 个 NP 中 的 语言 到 都 存在 从 Z 到 忆 
的 多 项 式 时间 归 约 。 这 个 归 约 也 是 从 工 到 的 多 项 式 时 间 归 约 。 下 面 通过 证 明 互相 包含 来 证 明 
NP = co-NP。 

NP co-NP : 假设 L 属 于 NP。 则 工 属于 co-NP 。 把 从 工 到 的 多 项 式 时 间 归 约 与 假设 
的 互 的 非 确定 型 多 项 式 时 间 算 法 结合 起 来 ， 就 产生 工 的 非 确定 型 多 项 式 时 间 算 法 。 对 于 Np 中 
任意 的 上 ， 工 也 属于 WP。 因此 作为 NP 中 的 语言 的 补 ， 工 属于 co-XP。 这 个 事实 说 明 NP C co- 
NP 。 

co- NP 5 NP : 假设 L 属 于 co-NP。 则 存在 从 工 到 P 的 多 项 式 时 间 归 约 ， 因 为 P 是 NP 完全 的 而 
且 工 属于 NP。 这 个 归 约 也 是 从 L 到 的 归 约 。 由 于 属于 XP， 把 这 个 归 约 与 万 的 非 确定 型 多 


项 式 时 间 算 法 结合 起 来 ， 就 证 明 L 属 于 NP. 口 
11.1.3 习题 
! 习题 11.1.1 下 面 是 一 些 问题 。 辨 别 每 个 问题 是 否 属于 NP 以 及 是 否 属于 co-NP。 描 述 每 个 问 


题 的 补 。 如 果 问 题 或 问题 的 补 是 NP 完全 的 ， 还 要 进行 证 明 。 
* a) TRUE-SAT 问 题 : 给 定 布尔 表达 式 E， 当 全 部 变 元 都 为 真 时 E 为 真 ， 是 否 存 在 变 元 不 都 为 
真 的 某 个 其 他 赋值 使 E 为 真 ? 
b) FALSE-SAT 问 题 ， 给 定 布尔 表达 式 E， 当 全 部 变 元 都 为 假 时 E 为 假 ， 是 否 存在 变 元 不 都 为 
假 的 某 个 其 他 赋值 使 为 假 ? 
c) DOUBLE-SAT 问 题 : 给 定 布尔 表达 式 E， 是 否 至 少 存在 两 个 赋值 使 E 为 真 ? 
d) NEAR-TAUT 问 题 ， 给 定 布尔 表达 式 E， 是 否 至 多 存在 一 个 赋值 使 E 为 假 ? 
* 31.1.2 假设 存在 函数 /， 它 是 从 n 位 整数 到 n 位 整数 的 双 射 函数 ， 使 得 : 
1.f(9 可 以 在 多 项 式 时 间 内 计算 。 
2. 广 (x) 不 能 在 多 项 式 时 间 内 计算 。 
WEW: 由 使 得 
FW<y 
这 样 的 整数 对 (x, 习 组 成 的 语言 应 当 属于 ( XP co- NP ) 一 2。 


11.2 在 多 项 式 空间 内 可 解决 的 问题 


现在 看 这 样 一 个 问题 类 ， 这 个 类 包含 全 部 XP， 而 且 似乎 包含 更 多 的 东西 ， 虽 然 还 不 能 确定 
就 是 这 样 。 这 个 类 是 这 样 定义 的 :允许 图 灵机 使 用 输入 规模 的 多 项 式 大 小 的 空间 ， 却 不 限制 使 
用 多 少时 间 。 起 初 将 要 区 分 带 多 项 式 空间 限制 的 确定 型 图 灵机 与 非 确定 型 图 灵机 所 接受 的 语言 ， 
但 是 很 快 将 要 看 到 这 两 个 语言 类 是 同一 个 类 。 

对 于 多 项 式 空间 存在 着 完全 问题 P， 这 意味 着 这 个 类 中 的 所 有 问题 都 在 多 项 式 时 间 内 归 约 到 
P。 因 此 ， 如 果 P 属 于 2 或 XP， 那 么 带 多 项 式 空间 限制 的 图 灵机 所 接受 的 所 有 语言 就 相应 地 属于 
?或 XP。 我 们 将 要 提供 一 个 这 种 问题 的 例子 :“ 带 量词 的 布尔 公式 "。 





È 
图 
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11.21 多 项 式 空间 图 灵机 


带 多 项 式 空间 限制 的 图 灵机 如 图 11-2 所 示 。 存 在 着 某 个 多 项 式 pP(m)， 使 得 当 给 定 长 度 为 "的 
输入 w 时 ， 这 人 台 图 灵机 从 不 访问 超过 p(m) 个 带 单元 。 根 据 定 理 8.12， 可 以 假设 ; 带 是 半 无 穷 的 ， 
并 且 图 灵机 在 输入 开始 处 从 不 向 左 移 。 


有 穷 控制 











一 输 和 w — 


"个 单元 


= 用 过 的 单元 一 一 一 一 一 一 一 
Plm) 个 单元 


图 11-2 使 用 多 项 式 空间 的 图 灵机 


定义 25 (多 项 式 空间 ) 语言 类 包含 且 仅 包含 这 样 的 语言 ， 这 些 语 言 都 是 带 多 项 式 空间 限制 
的 确定 型 图 灵机 M 所 接受 的 语言 L(M)。 同 样 定义 Nes ( 非 确定 型 多 项 式 空间 ) 类 由 下 面 这 样 的 
语言 组 成 ， 这 些 语言 是 非 确定 型 的 带 多 项 式 空间 限制 的 图 灵机 M 所 接受 的 语言 LM)。 显 然 zy C 
Wr5， 因 为 从 技术 上 说 ， 每 一 台 确 定型 图 灵机 也 是 非 确定 型 的 。 但 是 ， 本 节 将 要 证 明令 人 惊讶 的 
结果 : P25= Nes, © 


11.2.2 2S 和 Nes 与 前 面 定义 的 类 的 关系 


首先 ? C 25 和 NP C NPS 的 关系 应 当 是 显然 的 。 原 因 在 于 ， 如 果 图 灵机 只 移动 多 项 式 步 
数 ， 那 它 就 不 会 使 用 超过 多 项 式 个 单元 ， 具 体 地 说 ， 它 不 能 访问 超过 了 移动 步 数 加 一 的 单元 数 。 
一 旦 证 明了 25 = Nrs， 将 要 看 到 事实 上 这 三 个 类 形成 包含 链 : P CNPC PS. 

带 多 项 式 空间 限制 的 图 灵机 的 一 个 基本 性 质 是 : 这 些 图 灵机 在 必须 重复 某 个 ID 之 前 只 能 移 
动 指数 步 数 。 我 们 需要 这 个 事实 来 证 明 关于 25 的 其 他 有 趣事 实 ， 而 且 证 明 25 只 包含 递归 语言 
( 即 具有 算法 的 语言 )。 注 意 ， 在 25 或 Nes 的 定义 中 ， 没 有 任何 地 方 要 求 图 灵机 停机 。 图 灵机 可 
能 死 循环 ， 而 不 离开 带 上 一 段 多 项 式 大 小 的 区 域 。 


定理 11.3 如 果 M 是 带 多 项 式 空间 限制 的 图 灵机 (确定 型 或 非 确定 型 )，p(m) 是 多 项 式 空间 限 


O 在 关于 本 专题 的 其 他 著作 里 也 许 会 看 到 把 这 个 类 写成 PSPACE。 不 管 怎样 ， 本 书 选 择 采用 25 记 号 来 表示 在 确定 
型 (或 非 确定 型 ) 多 项 式 空间 内 解决 的 问题 类 ， 因 为 一 旦 证 明 2s = As 的 等 价 性 ， 本 书 将 放弃 使 用 ps。 
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fill, BATE Rc, EMR KE Ant Aw, NIMBLE! FA ZA 

证 明 ”基本 思想 是 : M 在 移动 超过 cl+rm 步 之 前 ， 必 须 重复 某 个 ID。 如 果 M 重 复 某 个 卫 然 后 
接受 ， 那 就 必定 存在 更 短 的 导致 接受 的 卫 序 列 。 也 就 是 说 ， 如 果 a 上 BF BE y， 其 中 ao 是 初始 
ID, PEMMID, VERID, Wha Fp 上 7Y 就 是 更 短 的 导致 接受 的 ID 序列 。 

< 必定 存在 的 证 明 利用 了 这 样 的 事实 : 如 果 限 制图 灵机 使 用 的 空间 ， 那 么 就 限制 了 ID 数 。 具 
体 地 说 ， 设 是 W 的 带 符号 数 ， 设 * 是 W 的 状态 数 。 当 M 只 使 用 PCD 个 带 单元 时 ， 不 同 Dp 的 个 数 至 
多 是 sp(n)w"。 也 就 是 说 ， 可 以 从 s 种 状态 中 任 选 一 种 ， 把 带头 放 到 p(n) 个 带 位 置 中 任意 一 处 , 使 
用 zw 种 带 符号 序列 中 任意 一 种 来 填充 PCD) 个 单元 。 

选择 c=s+te HEU + 51 的 二 项 式 展开 ， 即 

11+ + (1 + pln) str + > 

注意 , 第 二 项 至 少 不 小 于 sp(Dm, KEH +” 至 少 等 于 M 的 可 能 ID 的 数目 。 完 成 证 明 还 要 注意 ; 
如 果 M 接 受 长 度 为 "的 w， 那 么 M 就 通过 无 重复 ID 的 移动 序列 来 这 样 做 。 因 此 M 通 过 长 度 不 超过 不 
同 ZD 的 个 数 (Ble +7) 的 移动 序列 来 接受 。 口 


可 以 利用 定理 11.3 来 把 带 多 项 式 空间 限制 的 任何 图 灵机 转换 成 等 价 的 至 多 移动 指数 步 就 停机 
的 图 灵机 。 要 点 在 于 ， 由 于 知道 图 灵机 在 指数 移动 步 数 之 内 接受 ， 所 以 可 以 计数 图 灵机 已 经 移 
动 了 多 少 步 ， 如 果 图 灵机 移动 了 足够 步 数 还 不 接受 ， 那 么 就 促使 图 灵机 停机 。 


定理 11.4 ”如果 语 言 L 属 于 PS (对 应 非 确定 型 图 灵机 为 XPs) ， 那 么 带 多 项 式 空间 限制 的 确 
定型 (对 应 NPS 为 非 确定 型 ) 图 灵机 接受 上 ， 并 且 对 于 某 个 多 项 式 400 和 常数 c > 1， 这 人 台 图 灵机 
至 多 移动 cx 步 之 后 停机 。 

证 明 ”这 里 将 对 确定 型 图 灵机 证 明 这 个 命题 ， 同 样 的 证 明 适用 于 非 确定 型 图 灵机 。 已 知 带 
多 项 式 空间 限制 p(n) 的 图 灵机 Mi 接受 L。 根 据 定理 11.3， 如 果 MM 接 受 w， 那 么 Mi 在 至 多 c!+mm 步 
之 内 接受 。 

设计 有 两 条 带 的 新 图 灵机 M;。 在 第 一 条 带 上 M; 模 拟 MI， 在 第 二 条 带 上 M; 以 c 进 制 计数 直到 
cited 为 止 。 如 果 M 到 达 这 个 计数 ， 那 么 M; 就 停机 不 接受 。 因 此 Mi 在 第 二 条 带 上 使 用 1 + p(wl) 
个 单元 。 假 设 了 Mi 使 用 不 超过 p(wl) 个 带 单元 ， 所 以 M; 在 第 一 条 带 上 也 使 用 不 超过 p(lwl) 个 单元 。 

如 果 把 M2 转换 成 单 带 图 灵机 M3， 就 能 确信 在 长 度 为 4 的 任何 输入 上 M; 使 用 不 超过 1 + p(n) 
个 带 单 元 。 虽 然 M 可 能 使 用 M2 运行 时 间 的 平方 时 间 ， 但 这 个 时 间 不 超过 O(cw")。9 因为 对 于 
某 个 常数 4，M; 移 动 不 超过 dc”" 步 ， 所 以 可 选择 q(n) = 2p(n) + logcd。 于 是 M 移 动 至 多 cr 步 。 
因为 M2 必定 停机 ， 所 以 M; 必 定 停机 。 因 为 M1 接受 L， 所 以 M; 和 Ms; 也 接受 L。 因 此 M3 满足 定理 
的 命题 。 口 


11.2.3 确定 型 多 项 式 空间 与 非 确定 型 多 项 式 空间 
因为 在 ? 与 NP 之 间 的 比较 显得 如 此 困难 所 以 在 PS 与 NPS 之 间 的 同样 比较 却 轻而易举 
日 事实 上 ， 从 定理 8.10 得 出 的 一 般 规律 并 不 是 可 以 做 出 的 最 强 断 言 。 因 为 任何 带 都 仅仅 使 用 1+p(m) 个 单元 ， 所 以 


在 多 带 合 一 的 构造 中 ， 被 模拟 的 各 个 带头 相距 至 多 1+p(m) 个 单元 。 因 此 多 带 图 灵机 M; 的 ew" 步 移动 可 以 在 
Opa) FZ ABBE, TSR FE ES OCHS. 
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(这 两 个 类 是 同一 个 语言 类 ) ， 这 就 令 人 惊讶 了 。 这 个 证 明 涉及 到 用 带 多 项 式 空 间 限制 O(p*m)) 的 
确定 型 图 灵机 来 模拟 带 多 项 式 空间 限制 (p(m)) 的 非 确定 型 图 灵机 。 

证 明 的 核心 是 一 个 确定 型 的 递归 测试 ， 非 确定 型 图 灵机 能 否 在 至 多 m 步 之 内 从 1D 移动 到 
IDJ。 一 台 确 定型 图 灵机 DD 系统 地 试验 所 有 的 中 间 IDK， 以 便 验 证 ! 能 否 在 m/2 步 移动 内 变 成 Kk， 以 
及 K 能 否 在 m/2 步 移动 内 变 成 J/。 也 就 是 说 ， 想 象 存 在 一 个 递归 函数 reach(1, J, m), KARRE 
是 否 至 多 经 过 m 步 移动 就 有 1 F J 

把 D 的 带 当 作 堆 栈 ， 在 其 中 存放 reach 的 递归 调用 参数 。 也 就 是 说 ，D 把 [1, J, 四 保存 在 一 个 
栈 帧 中 。reach 执 行 的 算法 的 框架 如 图 11-3 所 示 。 





BOOLEAN FUNCTION reach(I, J, m) 
ID; I, J; INT; m, 
BEGIN 
IF (m = = 1) THEN /* 基 础 */ BEGIN 
测试 是 否 I = = J 或 I 可 在 一 步 移动 后 变 成 J， 
RETURN 若是 ， 则 TRUE， 若 否 ， 则 FALSE， 
END, 
ELSE /* 归 纳 部 分 */ BEGIN 
FOR 每 个 可 能 的 TD K DO 
IF ( reach(I, K, m/2) AND reach(K, J, m/2) ) THEN 
RETURN TRUE, 
RETURN FALSE, 
END, 
END, 











图 11-3 递归 函数 reoch 测 试 一 个 ID 是 否 在 指定 移动 步 数 之 内 变 成 另外 一 个 ID 


重要 的 是 注意 :虽然 reach 有 两 次 自我 调用 ， 但 这 些 调用 是 依次 进行 的 ， 因 此 一 次 只 有 一 个 调 
用 是 活动 的 。 也 就 是 说 ， 如 果 开 始 时 有 栈 帧 [fi, Ju 由， 那么 在 任何 时 刻 就 只 有 一 个 调用 [Ri Ja, m2], 
一 个 调用 [6,28,m/4]， 另 一 个 调用 [4,J4,m/8]， 依 此 类 推 ， 直 到 某 个 时 刻 第 三 个 参数 变 成 1 为 止 。 在 
那个 时 刻 ，reach 可 以 应 用 基础 步骤 而 不 再 需要 递归 调用 。 基 础 步 又 测试 是 否 1=, 或 1 上 J， 如 果 其 
中 有 一 项 成 立 ， 就 返回 TRUE， 如 果 两 者 都 不 成 立 ， 就 返回 FALSE。 图 11-4 提 示 当 给 定 初始 移动 计 
数 m 而 且 reach 的 活动 调用 尽量 多 时 ， 确 定型 图 灵机 D 的 堆栈 看 起 来 是 什么 样子 。 


[nham |b4 me | hm | 14 J4 mg | si 


图 11-4 通过 递归 调用 reach 来 模拟 NTM 的 DTM 的 带 


虽然 似乎 有 可 能 多 次 调用 reach， 图 11-4 中 的 带 可 能 变 得 很 长 ， 但 是 将 要 证 明 不 可 能 变 得 
“ 太 长 "。 也 就 是 说 ， 如 果 从 移动 计数 m 开 始 ， 那 么 任何 时 刻 在 带 上 就 只 有 logzm 个 栈 帧 。 由 于 定 
理 11.4 保 证 NTM N 不 能 移动 超过 crm 步 ， 所 以 开始 时 m 不 必 比 这 个 值 更 大 。 因 此 栈 帧 数 至 多 是 
logzcx%， 即 OO(m)。 现 在 就 有 了 下 述 定理 证 明 背 后 的 要 点 。 


定理 11.5 (PRERE) PS=NPS. 
证 明 显然 25 S Nes ， 因 为 从 技术 上 来 说 ， 每 台 确定 型 图 灵机 也 是 非 确定 型 图 灵机 。 因 此 
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只 需 证 明 NPS C 25 ， 也 就 是 说 ， 如 果 对 于 某 个 多 项 式 p(n)， 带 空间 限制 p(m) 的 非 确定 型 图 灵机 
NN 接受 L， 那 么 对 于 另外 某 个 多 项 式 q(n)， 带 空间 限制 gq(n) 的 确定 型 图 灵机 D 接 受 L。 事 实 上 ， 下 
面 将 要 证 明 可 以 选择 q(n) 为 具有 p(n) 平 方 的 阶 。 

首先 根据 定理 113 可 以 假设 如果 NN 接受 ， 那 么 对 于 某 个 常数 c，N 在 cr 中 步 之 内 接受 。 给 定 
KEAN AW, DRIES TAM, J. 内 保存 到 带 上 ， 并 且 以 这 些 参数 调用 reacj 来 发 现 N 对 
输入 w 做 什么 ， 其中: 

1. 1 是 N 在 输入 w 上 的 初始 ID。 

2. /是 使 用 至 多 p(m) 个 带 单元 的 任何 接受 ID， 使 用 一 条 草稿 带 ，D 系 统 地 枚 举 出 不 同 的 J。 

3.m= ct, 

上 面 证 明 过 同一 时 刻 不 会 有 超过 logzm 个 递归 调用 ， 即 第 三 个 参数 为 m、m/2、m/4 等 一 直 降 
到 1 为 止 的 那些 调用 。 因 此 ， 在 堆栈 中 只 有 不 超过 
logzm 个 栈 帧 ， 这 个 值 是 CU(D)。 

而 且 这 些 栈 帧 自身 占用 O(p(n)) 空 间 。 原 因 是 写 下 
两 个 ID 中 的 每 一 个 只 需 1 + p(m) 个 单元 ， 如 果 用 二 进 制 
Sm, 那 就 只 需 logzc!* rm 个 单元 ， 即 0(p(m))。 因 此 整 
个 栈 帧 由 两 个 DD 和 一 个 整数 组 成 ， 占 用 O(p(n)) 空 间 。 

由 于 D 至 多 有 OUCD) 个 栈 帧 ， 所 以 使 用 的 总 空间 
WIO). 如 果 P(D) 是 多 项 式 ， 那 么 这 个 空间 量 
也 是 多 项 式 ， 所 以 就 证 明 带 多 项 式 空间 限制 的 确定 
型 图 灵机 接受 L。 口 


总 结 一 下 ， 关 于 复杂 性 类 的 知识 可 以 推广 到 包含 
多 项 式 空间 类 。 完 整 的 示意 图 如 图 11-5 所 示 。 图 11-5 语言 类 之 间 的 已 知 关系 


11.3) 3 25 完全 的 问题 
本 节 将 要 介绍 一 个 所 谓 “ 带 量词 的 布尔 公式 ”的 问题 ， 并 证 明 这 个 问题 对 25 是 完全 的 。 
11.3.1 PS 完全 性 


如 果 : 

1.P 属 于 25。 

2. 所 有 PS 中 的 语言 -都 能 在 多 项 式 时 间 内 归 约 到 P。 
则 定义 问题 P 对 25 是 完全 的 (PS 完全 的 )。 注 意 ， 虽 然 正在 考虑 多 项 式 空间 而 非 时 间 , 但 PS 完 
全 性 的 要 求 却 类 似 于 NP 完全 性 的 要 求 : 归 约 必须 在 多 项 式 时 间 内 完成 。 原 因 在 于 需要 知道 ， 如 
果 证 明 某 个 PS 完全 问题 属于 P, 那么 ?=2s5， 并且 如 果 某 个 PS 完全 问题 属于 Np， 那么 NP= 25。 
假如 只 要 求 归 约 属于 多 项 式 空间 ， 那 么 输出 规模 就 可 能 是 输入 规模 的 指数 ， 因 此 将 不 能 证 明 下 
列 定理 。 但 是 ， 由 于 只 限于 讨论 多 项 式 时 间 归 约 ， 所 以 就 得 出 了 所 需要 的 关系 式 。 


定理 11.6 假设 P 是 PS 完全 问题 。 那 么 : 
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a) 车 P 属 于 P， 则 2= 25。 

b) 若 P 属 于 WP， 则 Xp= 25。 

证 明 ”证 明 a)。 对 于 25 中 的 任意 L， 已 知 存在 从 5 到 P 的 多 项 式 时 间 归 约 。 设 这 个 归 约 花费 
时 间 q(m)。 并 且 假 设 P 属 于 P， 因 此 P 有 多 项 式 时 间 算 法 ,不妨 设 这 个 算法 在 p(n) 时 间 内 运行 。 

给 定 串 w， 希望 测试 w 是 否 属于 L， 可 以 利用 归 约 把 w 转 换 成 囊 x; x 属于 P 当 且 仅 当 w 属 于 L。 
因为 这 个 归 约 花费 时 间 q(iwl)， 所 以 串 x 不 能 比 g(Iw) 更 长 。 可 以 在 p(t) 时 间 内 测试 出 x 是 否 属于 P， 
这 个 时 间 是 p(q(Iwl))， 这 是 wl 的 多 项 式 。 结 论 是 存在 L 的 多项式 时 间 算 法 。 

因此 25 中 的 每 一 个 语言 都 属于 P。 由 于 2 属于 25 的 包含 关系 是 显然 的 ， 所 以 就 证 明了 : 如 
果 P 属 于 P， 那 么 ?= 25 。(b) 的 证 明 是 非常 类 似 的 ， 其 中 P 属 于 Np， 把 这 个 证 明 留 给 读者 。 o 


11.3.2 带 量词 的 布尔 公式 


将 要 展示 一 个 对 25 完全 的 问题 P。 但 是 首先 需要 学 习 一 些 术 语 ， 利 用 这 些 术语 来 定义 这 个 
所 谓 “ 带 量词 的 布尔 公式 ”( 或 QBF) 的 问题 。 
大 致 说 来 ， 带 量词 的 布尔 公式 就 是 增加 了 Y (“所 有 ”) 和 3 (“FETE”) 运算 符 的 布尔 表达 式 。 
表达 式 (Vx)(E) 的 意思 是 ， 当 把 E 中 的 x 的 所 有 出 现 都 换 成 1 ( 真 ) 时 E 为 真 ， 并且 当 把 x 的 所 有 出 现 
都 换 成 0 ( 假 ) 时 E 也 为 真 。 表 达 式 (3x)() 的 意思 是 : 要 么 当 把 的 所 有 出 现 都 换 成 1 ( 真 ) 时 为 
Hs 要 么 当 把 x 的 所 有 出 现 都 换 成 0 ( 假 ) 时 E 为 真 ， 要 么 在 两 种 情况 下 E 都 为 真 。 
为 了 简化 描述 ， 将 要 假设 : QBF 都 不 包含 同一 个 变 元 * 的 两 次 以 上 量化 (V 或 3)。 这 个 限制 
不 是 根本 性 的 ， 只 大 致 相当 于 不 允许 一 个 程序 中 的 两 个 不 同 函 数 使 用 同样 的 局 部 变量 9 ;形式 
上 ， 定 义 带 量词 的 布尔 公式 如 下 : 
1.0 ( 假 )、1 ( 真 ) 和 任何 变 元 都 是 QBF。 
2. 如 果 E 和 F 都 是 QBF， 那 么 (E)、~(E)、( 刀 人 (F)、(E)V (F) 都 是 QBF， 分 别 表示 带 括号 的 E、 
E 的 否定 、E 和 F 的 AND、E 和 F 的 OR 等 。 根 据 通常 的 优先 级 规则 NOT， 然后 AND， 然 
后 OR (最 低 )) 可 以 删除 多 余 的 括号 。 还 将 倾向 于 使 用 “ 算 未 ”风格 来 表示 AND 和 OR， 
其 中 把 AND 表 示 成 并 置 ( 无 运算 符 )， 把 OR 表示 成 + 。 也 就 是 说 ， 常 常用 (E)(F) 代 赫 (E) 
AP), AE + PROV (F)。 

3. 如 果 F 是 不 含有 变 元 * 的 量化 的 QBF， 那 么 (Vx)(E) 和 (3)( 刀 都 是 QBF。 并 且说 :的 辖 域 是 E。 
直观 说 来 ，x 只 在 E 中 有 定义 ， 这 非常 像 是 程序 中 变量 的 作用 域 就 是 声明 这 个 变量 的 函数 。 
如 果 没 有 歧义 ， 就 可 以 删除 环绕 E 的 括号 (而 不 是 环绕 量词 的 括号 )。 不 管 怎样 ， 为 了 避 
免 括 号 过 分 媒 套 ， 将 把 连续 的 量词 一 -比如 

(VAY E) 

写成 只 有 一 对 括号 环绕 E， 即 (Vx)(3y)(Yz)(E)， 而 不 是 让 其 中 每 一 个 量词 都 有 一 对 括号 环 
绕 着 E。 


例 11.7 这 里 是 QBF 的 一 个 例子 : 


O 在 程序 内 或 在 带 量词 的 布尔 公式 内 在 两 处 不 同 地 方 使 用 了 同一 个 变量 名 ， 总 是 可 以 重新 命名 其 中 一 个 。 对 于 
程序 来 说 ， 没 有 理由 去 避免 使 用 同一 个 局 部 名 ， 但 是 在 QBF 里 将 会 发 现 ， 假 设 没 有 重用 ， 这 样 能 带 业 便利 。 
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(Wx(Gy)ay) + (W2)(>x + D)) (11-1) 
首先 把 变 元 x 和 y 用 AND 连 接 起 来 ， 然 后 应 用 量词 (3y) 来 构成 子 表达 式 (3y)(xy)。 类 似 地 ， 构 造 布 
尔 表达 式 -x + z， 应 用 量词 (Yz) 来 构成 子 表达 式 (VzaCnx + zj。 然后 用 OR 把 这 两 个 表达 式 组 合 起 
来 ， 不 需要 括号 ， 因 为 + (OR) 的 优先 级 最 低 。 最 后 把 (Yz) 量 词 应 用 到 这 个 表达 式 上 ， 产 生 上 
面 所 说 的 QBF。 口 


11.3.3 带 量词 的 布尔 公式 的 求 值 


还 没有 形式 化 地 定义 什么 是 QBF 的 意义 。 但 是 ， 如 果 把 Y 读 作 “ 所 有 "， 把 3 读 作 “存在 ”， 
就 可 以 获得 直观 的 想法 。 上 面 的 QBF 断 言 : 对 于 所 有 的 zx ( 即 x = 0 或 + = 1) ， 要 么 存在 ?使 得 x 和 y 
都 为 真 ， 要 么 对 于 所 有 的 z，~x + z 为 真 。 这 个 命题 碰巧 为 真 。 为 了 弄 清原 因 ， 注 意 ， 如 果 x = 1， 
就 可 选择 y = 1 来 让 xy 为 真 。 如 果 x* =0， 则 对 于 z 的 两 种 值 ，-w + z 都 为 真 。 

如 果 变 元 * 属 于 x 的 某 个 量词 的 辖 域 ， 就 说 的 使 用 是 约束 的 。 否 则 ，x 的 出 现 是 自由 的 。 


例 11.8 ”在 式 (11-1) 的 QBF 中 ， 变 元 的 每 次 使 用 都 是 约束 的 ， 因 为 都 属于 该 变 元 的 量词 的 辖 
域 。 比 如 ， 变 元 ) 在 (3y)(%9) 中 量化 ， 辖 域 是 表达 式 y。 因 此 y 在 那里 的 出 现 就 是 约束 的 。 在 态 中 x 
的 使 用 是 约束 的 ， 量 词 (Vx) 的 辖 域 是 整个 表达 式 。 o 


不 带 自由 变 元 的 QBF 的 值 ， 或 者 是 0， 或 者 是 1 ( 即 分 别 为 真 或 假 ) 。 对 表达 式 长 度 n 进 行 归 
纳 ， 就 可 以 计算 出 这 样 的 QBF 的 值 。 
基础 : 如果 表达 式 长 度 为 1， 就 只 能 是 常数 0 或 1， 因 为 任何 变 元 都 是 自由 的 。 这 个 表达 式 的 
值 就 是 表达 式 本 身 。 
归纳 ; 假设 给 定 一 个 表达 式 ， 这 个 表达 式 没有 自由 变 元 ， 长 度 n > 1， 并 且 对 于 长 度 更 短 的 
任何 表达 式 都 可 以 求 值 ， 只 要 这 些 表达 式 没有 自由 变 元 。 这 样 的 QBF 可 以 具有 六 种 可 能 的 形式 : 
1 表达 式 形 如 (可 。 于 是 E 的 长 度 为 "一 2， 可 以 求 出 BE 的 值 ， 这 个 值 或 为 0 或 为 1。( 加 的 值 是 
同样 的 。 
2. 表达 式 形 如 mE。 于 是 E 的 长 度 为 n 一 1， 可 以 求 出 E 的 值 。 若 E= 1， 则 -已 =0， 反 之 亦 然 。 
3. 表达 式 形 如 EF。 于 是 E 和 F 的 长 度 都 小 于 n， 因 而 都 可 以 求 值 。 如 果 E 和 F 的 值 都 为 1， 那 么 
EF 值 为 1， 如 果 两 者 中 有 一 个 是 9， 那么 EF = 0。 
4. 表 达 式 形 如 E + F。 于 是 E 和 F 的 长 度 都 小 于 n， 因 而 都 可 以 求 值 。 如 果 E 和 F 其 中 一 个 的 值 
Al, 那么 E+F 的 值 为 1， 如 果 两 个 都 为 9， 那么 E+ F=0, 
5. 如 果 表达 式 形 如 (Vx)(E)， 那 么 就 先 把 x 的 所 有 出 现 都 换 成 0 来 得 出 表达 式 E6， 再 把 x 的 每 次 
出 现 都 换 成 1 来 得 出 表达 式 已 。 注 意 玉 和 已 都 : 
(a) 没有 自由 变 元 ， 原 因 在 于 Eo 或 E! 中 自由 变 元 的 任何 一 次 出 现 都 不 可 能 是 x*， 因此 假如 Eo 
或 El 有 某 个 自由 变 元 的 话 ， 那 么 这 个 变 元 在 E 中 也 是 自由 的 。 
O) 长 度 为 m 一 6; 因此 长 度 小 于 m。 
对 Eo 和 EE, 求 值 。 如 果 两 个 值 都 为 !1， 那 么 (Vx)(E) 的 值 为 1， 否 则 (Vx)(E) 的 值 为 0。 注 意 ， 
这 条 规则 是 如 何 反映 了 对 (Yx) 所 做 的 “对 于 所 有 的 x” 的 解释 。 
6. 如果 这 个 表达 式 形 如 (3x)(E)， 那 么 就 照 (5) 中 那样 进行 ， 构 造 E6 和 Ei 并 对 其 求 值 。 如 果 E。 
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或 中 至 少 有 一 个 值 为 1， 那 么 (3)(E) 的 值 为 1， 否则 (3x)(E) 的 值 为 0。 注 意 ， 这 条 规则 反 
映 了 对 (3x) 所 做 的 “存在 x*” 的 解释 。 


例 11.9 对 式 (11- 了 ) 中 的 QBF 求 值 。 这 个 QBF 形 如 (Vx)(E)， 所 以 必须 先 对 本 求 值 ，Eo 是 ; 
Gy)(Oy) + (Y0 + z) (11-2) 

这 个 表达 式 的 值 依赖 于 用 OR 连接 的 两 个 表达 式 的 值 ，(3y)(0y) 和 (Vz)(-0 + 2)5 如果 这 两 个 表达 式 
其 中 一 个 值 为 1， 那 么 E 的 值 为 1。 为 了 对 (3y)(0y) 求 值 ， 必 须 在 子 表 夺 式 0y 中 代入 y= 0 和 y = 1， 
并 验证 其 中 至 少 在 一 种 情况 下 值 为 0。 但 是 0 入 0 和 0 人 1 都 值 为 0%， 所 以 (3y)(0y) 值 为 0。 

幸运 的 是 ，G3z)(-0 + z) 的 值 为 1， 把 : = 0 和 z = 1 分 别 代入 就 可 以 看 出 来 。 由 于 -0 = 1， 所 以 
必须 求 值 的 两 个 表达 式 就 是 1 V0 和 1 V 1。 由 于 这 两 者 的 值 都 为 1， 所 以 知道 (Vz)(-0 + 习 的 值 为 1。 
现在 结论 是 E。( 就 是 式 (11-2)) 的 值 为 1。 

还 必须 验证 已 的 值 也 为 1， 已 是 通过 在 式 (11-D) 中 把 x = 1 代入 而 得 到 的 : 


Gy)(Dy) + (Wz)(-1 +2) (11-3) 
表达 式 (3y)(1y) 的 值 为 1， 可 以 通过 把 y = 1 代入 来 看 出 来 。 因 此 E，( 即 式 (11-3)) 的 值 为 1。 结 论 是 
整个 表达 式 ( 即 式 (11-1)) 的 值 为 1。 口 


11.3.4 QBF 问 题 的 PS 完全 性 


现在 可 以 定义 带 量词 的 布尔 公式 问题 给 定 一 个 无 自由 变 元 的 QBF， 其 值 是 否 为 1? 将 要 把 
这 个 问题 称 为 QBF， 同 时 继续 用 QBF 作 为 “ 带 量词 的 布尔 公式 ”的 缩写 。 上 下 文 将 允许 避免 混 
乱 。 

下 面 将 要 证 明 QBF 问 题 对 于 PS 是 完全 的 。 这 个 证 明 组 合 了 定理 10.9 和 定理 11.5 的 思想 。 从 
定理 10.9 中 借用 这 样 的 想法 : 用 逻辑 变 元 来 表示 图 灵机 的 计算 ， 每 个 变 元 说 明 在 某 个 时 刻 某 个 单 
元 是 否 具有 某 个 值 。 但 是 ， 如 果 正 在 处 理 的 是 多 项 式 时 间 ， 就 像 在 定理 10.9 中 那样 ， 那么 就 只 涉 
及 多 项 式 个 变 元 。 因 此 就 能 够 在 多 项 式 时 间 内 生成 一 个 表达 式 ， 这 个 表达 式 说 TM 接受 其 输入 。 
当 处 理 多 项 式 空间 限界 时 ， 计 算 中 的 ID 数量 可 能 是 输入 规模 的 指数 大 小 ， 所 以 就 不 能 在 多 项 式 
时 间 内 写 出 布尔 表达 式 来 说 明 计算 是 正确 的 。 幸 运 的 是 ， 给 出 了 一 种 表达 能 力 更 强 的 语言 来 表 
达 要 说 的 内 容 ， 量 词 的 使 用 使 得 可 以 写 出 多 项 式 长 度 的 QBF， 这 个 QBF 说 带 多 项 式 空间 限制 的 
图 灵机 接受 输入 。 

从 定理 11.5 中 借用 “递归 加 倍 ”的 想法 ， 来 表达 一 个 ID 可 以 经 过 许多 步 移动 变 成 另外 一 个 
了 DD 这样 的 想法 。 也 就 是 说 ， 为 了 说 ID 7 在 m 步 移动 之 内 变 成 ID 7， 就 说 存在 某 个 ID K， 使 得 /在 
m/2 步 内 变 成 K 并 且 K 在 另外 m/2 步 内 变 成 J。 带 量词 的 布尔 表达 式 的 语言 允许 用 多 项 式 长 度 的 表 
达 式 来 说 这 些 事情 ， 即 使 m 是 输入 长 度 的 指数 。 i 

在 给 出 每 一 个 25 中 的 语言 都 多 项 式 时 间 归 约 到 QBF 的 证 明之 前 ; 还 需要 证 明 QBF 属 于 2s, 


即使 是 PS 完全 性 证 明 中 的 这 个 部 分 也 需要 费 些 脑筋 ， 所 以 将 其 分 离 出 来 作为 单独 的 定理 。 


日 ”注意 对 AND 和 OR 的 记号 的 灵活 使 用 ， 原 因 在 于 ， 不 能 对 由 0 和 1 组 成 的 表达 式 使 用 并 时 和 +， 否则 就 使 得 表达 
式 看 起 来 像 是 多 位 数 或 算术 加 法 。 希 望 读者 能 够 接受 用 两 种 记号 来 代表 同样 的 逻辑 运算 符 。 
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定理 11.10 ”QBF 属 于 25 。 

证 明 ”在 11.3.3 节 中 讨论 过 对 QBF F 求 值 的 递归 过 程 。 这 里 可 以 利用 一 个 堆栈 来 实现 这 个 算 
法 ， 可 以 把 堆栈 保存 在 图 灵机 的 带 上 ， 就 像 是 在 定理 11.5 的 证 明 中 做 过 的 那样 。 假 设 F 的 长 度 为 
nm。 于 是 为 F 创 造 一 个 长 度 为 O(m) 的 记录 ， 这 个 记录 包括 天 本 身 以 及 关于 正在 处 理 F 的 哪 一 个 子 表 
达 式 的 记录 的 空间 。 在 F 可 能 具有 的 六 种 形式 中 举 两 个 例子 ， 将 清楚 解释 这 个 求 值 过 程 。 

1 假设 F = Fi + Fi。 于 是 做 下 列 事情 : 

(a) 把 F 自 身 的 记录 放 到 F 的 记录 右 方 的 记录 中 。 

(b) 递归 地 对 下 求 值 。 

(©) 如 果 F 的 值 为 1， 就 返回 值 1 作为 F 的 值 。 

(d) 但 是 如 果 下 的 值 为 0， 就 把 F 的 记录 换 成 F; 的 记录 并 且 递 归 地 对 F 求 值 。 
(©) 把 F; 返 回 的 任何 值 都 作为 F 的 值 返 回 。 

2. 假 设 F = (4)(E)。 于 是 做 下 列 事情 : 

(a) 通过 把 x 的 每 个 出 现 都 代入 0 来 创造 表达 式 E6o， 并 且 在 F 的 记录 右 方 放 上 Eo 本 身 的 记录 。 

(O) 递归 地 对 EE 求 值 。 

(c) 如 果 Eo 的 值 为 !1， 就 返回 1 作为 F 的 值 。 

(d) 但 是 如 果 Eo 的 值 为 0%， 就 通过 把 E 中 的 x 代入 1 来 创造 E1。 

(©) 把 的 记录 换 成 E 的 记录 ， 并 递归 地 对 EI, 求 值 。 

(Ð 把 返回 的 任何 值 都 作为 F 的 值 返 回 。 
我 们 将 把 类 似 的 步 具 留 给 读者 来 完成 ， 对 于 F 具 有 另外 四 种 可 能 的 形式 ，FiF,、-E、(E) 或 
(Vx)( 思 的 情形 ， 这 些 步 又 将 对 F 求 值 。 基 础 情形 (其 中 F 是 个 常数 ) 要 求 返回 该 常数 ,而 不 在 带 
上 创造 更 多 的 记录 。 

在 任何 情况 下 ， 注 意 ， 在 长 度 为 m 的 表达 式 的 记录 右 方 ， 将 是 长 度 小 于 m 的 表达 式 的 记录 。 
注意 ， 即 使 经 常 必须 对 两 个 不 同 的 子 表达 式 求 值 ， 也 是 一 次 一 个 地 来 这 样 做 的 。 因 此 在 上 面 情 
形 (1) 中 ，F 或 的 任何 子 表达 式 的 记录 与 F; 或 F, 的 任何 子 表达 式 的 记录 决 不 会 同时 存在 。 对 于 
上 面 情形 (2) 中 的 Bo 和 El, 来 说 ， 同 样 的 事实 也 是 真 的 。 

因此 ， 如 果 从 长 度 为 n 的 表达 式 开 始 ， 那 么 在 堆栈 上 就 决 不 会 存在 超过 n 个 记录 。 并 且 每 个 
记录 长 度 为 O(n)。 因 此 整 条 带 长 度 决 不 会 超过 O(n”)。 现 在 构造 了 接受 QBF 的 带 多 项 式 空间 限制 
的 图 灵机 ， 其 空间 限制 是 平方 的 。 注 意 ， 这 个 算法 花费 的 典型 时 间 是 n 的 指数 ， 所 以 这 个 算法 不 
是 多 项 式 时 间 算法 。 口 


现在 转向 讨论 从 Ps 中 的 任意 语言 7 到 这 个 问题 QBF 的 归 约 。 本 来 想 要 像 定理 109 中 所 做 过 的 
那样 ， 使 用 变 元 yw 来 断言 第 ;个 ID 中 第 /个 位 置 是 4。 但 是 ， 因 为 有 指数 那么 多 个 ID ， 所 以 不 能 选 
一 个 长 度 为 "的 输入 w， 并 且 正好 在 "的 多 项 式 时 间 之 内 写 下 这 些 变 元 。 取 而 代 之 的 是 ， 利 用 量词 
的 可 用 性 ， 以 便 用 同一 组 变 元 来 表示 许多 不 同 的 ID。 这 个 思想 出 现在 下 面 的 证 明 中 。 


定理 11.11 QBF 问 题 是 PS 完全 的 。 
证 明 设 L 属 于 25， 确 定型 TM M 接 受 L，M 在 长 度 为 的 输入 上 至 多 使 用 p(n) 空 间 。 根 据 定理 
11.3， 可 知 存在 常数 c， 使 得 如 果 M 接 受 长 度 为 "的 输入 ，M 就 在 cl* rm 步 移动 之 内 接受 。 将 要 描 
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述 如 何在 多 项 式 时 间 内 从 长 度 为 n 的 输入 w 构 造 出 QBF E，E 没 有 自由 变 元 ， 并 且 E 为 真 当 且 仅 当 
w 属 于 L(M)。 

在 写 E 的 过 程 中 ， 将 需要 引入 多 项 式 那 样 多 个 变 元 ID， 这 些 变 元 ID 是 变 元 yi 的 集合 ,yw 断 
言 ; 所 表示 ID 的 第 个 位 置 有 符号 4。 公 许 j 从 0 到 p(n) 取 值 。 符 号 4 是 带 符号 或 M 的 状态 。 因 此 ， 
变 元 ID 中 的 命题 变 元 数 是 n 的 多 项 式 。 假 设 不 同 变 元 ID 中 的 命题 变 元 都 不 相同 ， 也 就 是 说 ， 没 有 
命题 变 元 属于 两 个 不 同 的 变 元 ID。 只 要 只 有 多 项 式 个 变 元 ID， 那 么 命题 变 元 的 总 数 就 是 多 项 式 
的 。 

为 方便 起 见 ， 引 入 记号 (3D)， 其 中 /是 变 元 ID。 这 个 量词 表示 (G30)(36)…(3xm)， 其 忠 ,x%，…， 
匣 是 变 元 ID /中 的 所 有 命题 变 元 。 类 似 地 ，(YD 表 示 把 V 量 词 应 用 到 /中 所 有 的 命题 变 元 上 。 

从 w 构 造 出 的 QBF 形 如 

(MNSANAPF) 

其 中 : 

1. 和 Wj 分 别 是 表示 初始 DD 和 接受 ID 的 变 元 ID。 

2.5 是 说 “正确 开始 ”的 表达 式 ， 即 确实 是 M 的 带 有 输入 w 的 初始 ID。 

3. NN 是 说 “正确 移动 ”的 表达 式 ， 即 Mi 让 o 变 为 J。 

4. [是 说 “正确 结束 ”的 表达 式 ， 即 5 是 接受 ID。 

注意 ， 虽 然 整个 表达 式 没 有 自由 变 元 ， 但 是 fo 的 变 元 将 作为 自由 变 元 出 现在 S 中 , 7 的 变 元 
将 作为 自由 变 元 出 现在 F 中 ， 并 且 这 两 组 变 元 都 作为 自由 变 元 出 现在 N 中 。 


正确 开始 


5 是 文字 的 逻辑 AND， 每 个 文字 是 1 的 变 元 之 一 。 如 果 带 有 输入 w 的 初始 ID 的 第 j 个 位 置 是 A， 
那么 S 就 有 文字 yn， 如 果 这 个 位 置 不 是 4， 那 么 S 就 有 文字 y。。 也 就 是 说 ， 如 果 w = aaran, I 
各 oo, Viar» Vaaz» yron 以 及 对 于 j = n+ 1,n+2,…, p(n) 来 说 的 所 有 ys 就 都 出 现 ， 并 且 没 有 否定 出 
现 ， 而 的 所 有 其 他 变 元 都 是 否定 的 。 在 这 里 假设 qo 是 M 的 初始 状态 ，B 是 M 的 空格 。 


正确 结束 


为 了 让 /是 接受 ID, 了 必须 具有 接受 状态 。 因 此 把 F 写 成 一 些 变 元 yw 的 逻辑 DR， 这 些 变 元 选 
自 ; 的 命题 变 元 ， 其 中 A 是 接受 状态 。 位 置 是 任意 的 。 


下 一 步 移动 是 正确 的 


以 某 种 方式 来 递归 地 构造 表达 式 NW， 使 得 考虑 的 移动 步 数 加 倍 ， 而 正在 构造 的 表达 式 只 增加 
ORM) MES, FA (更 重要 的 是 ) 写 出 这 个 表达 式 只 花费 O(p(n)) 时 间 。 为 了 方便 ， 采 用 缩写 
T= J (其 中 1 和 /都 是 变 元 ID) 来 表示 一 些 表 达 式 的 逻辑 AND， 这 些 表达 式 说 7 和 的 每 对 对 应 变 元 
相等 。 也 就 是 说 ， 如 果 / 包 括 变 元 yw 并且/ 包括 变 元 aa， 那么 = J 就 是 表达 式 Oza + Oy AS) HI 
AND， 其 中 j 取 值 从 0 到 p(n)，A4 是 任意 带 符号 或 M 的 状态 。 

现在 ， 对 于 i= 1, 2, 4, 8,… 来 构造 表达 式 N:(1, J), KENE: 经 过 不 超过 ;未 就 有 1 外 天 在 这 


Download at http://www.pinSi.com/ 


EIEE] 3 





些 表达 式 中 ， 只 有 变 元 ID ft/ 的 命题 变 元 才 是 自由 的 ， 所 有 其 他 命题 变 元 都 是 约束 的 。 

基础 : 对 于 i = 1，Ni(1, J 断 言 : 要 么 [= J， 要 么 1 上 J。 上面 刚刚 讨论 过 如 何 表达 条 件 1= J。 
对 于 条 件 1 上 J， 查阅 在 定理 10.9 的 证 明 中 “下 一 步 移动 正确 ” 那 部 分 中 的 讨论 ， 在 那里 讨论 的 
是 完全 一 样 的 问题 ， 即 断言 一 个 ID 是 接着 前 一 个 ID 的 。 表 达 式 Ni 是 这 两 个 表达 式 的 逻辑 OR。 注 
意 ， 可 以 在 O(p(n) 时 间 之 内 写 出 Ni。 

归纳 : 从 Ni 构 造 Ns (1, 用 。 在 “这 样 构造 Ns 行 不 通 ” 的 方 框 中 指出 ， 用 ;的 两 份 副本 来 构造 
Nw 这样 的 直接 方法 不 符合 所 需要 的 时 间 和 空间 限制 。 写 出 Ns 的 正确 方法 是 : 在 表达 式 中 使 用 入 
的 一 份 副本 ， 把 参数 (1, 有 和 (K, 力 都 传 给 同一 个 表达 式 。 也 就 是 说 ，No(1, 思 将 使 用 一 个 子 表达 式 
NAP, O). ENa, 办 写成 断言 ， 存在 ID K， 使 得 对 于 所 有 ID PHO, BZ: 

1.(P,@)#( DELP, Q+ K, I, EA 

2.N(P,O) 为 真 。 
换 句 话说 ，N41; ORNAK, 力 都 为 真 ， 除 此 之 外 不 关心 N(P; 0) 是 否 为 真 。 下 面 就 是 Na(1, HY 
QBF; 

Nal, J) = (IKXYPXVOX NAP, OV O (12 PAK=Q)N>(K=PAJ=0))) 

注意 可 以 在 以 下 时 间 之 内 写 出 Ns 写 出 N 所 花费 的 时 间 ， 外 加 OU(a) 的 其 他 工作 时 间 。 

为 了 完成 构造 W， 必 须 对 最 小 的 m 构 造 Nw， 这 样 的 m 是 2 的 等 ， 并 且 至 少 是 cl*rm， 这 个 值 是 
图 灵机 在 接受 长 度 为 的 输入 之 前 可 以 移动 的 最 大 可 能 步 数 。 必 须 应 用 上 面 的 归纳 步 又 的 次 数 
是 logxcl*xm)， 即 OOD)。 因 为 每 次 使 用 归纳 步 怠 都 花费 时 间 OUtD)， 所 以 断定 可 以 在 OU2(nD) 
时 间 之 内 构造 N。 





这 样 构造 Ns 行 不 通 


关于 从 Ni 构造 Nz， 第 一 个 本 能 反应 可 能 是 使 用 直截了当 的 分 治 方法 ， 如 果 在 不 超过 2i 
步 之 内 [上 J， 就 必定 存在 ID K， 使 得 在 不 超过 i 步 之 内 1 上 KEEK 上 J。 但 是 如 果 把 表达 这 
个 想法 的 公式 写 下 来 ， 比 如 Nz U, J) = AKAN: (Q, KAN (K, 四， 那么 就 一 边 加 倍 ;， 一 边 加 
倍 公式 的 长 度 。 因 为 i 必须 是 n 的 指数 才能 表达 M 的 所 有 可 能 的 计算 ， 所 以 将 要 花费 太 长 时 
间 来 写 下 N，N 将 具有 指数 长 度 。 








定理 11.11 的 证 明 的 总 结 
现在 已 经 证 明了 如 何在 wl 的 多 项 式 时 间 之 内 把 输入 w 变 换 成 QBF 
GMSANAF) 
还 证 明了 为 什么 表达 式 S,N 和 F 中 每 一 个 为 真 ， 当 且 仅 当 这 些 公式 的 自由 变 元 表示 ID KA, XP 


个 ID 分 别 是 W 在 输入 w 上 计算 的 初始 ID 和 接受 ID， 并 且 j F J;。 也 就 是 说 ， 这 个 QBF 值 为 1， 当 且 
仅 当 M 接 受 w。 口 


11.3.5 习题 
习题 11.3.1 通过 处 理 以 下 情形 完成 定理 11.10 的 证 明 : 
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a) F=FiF2, 

b) F = (Wx), 

c) F=-(E), 

d) F=(E), 
+1 习题 11.3.2 证 明 下 述 问题 是 PS 完全 的 : 给 定 正则 表达 式 E，E 是 否 等 价 于 2"? 其 中 2 是 在 书 
中 出 现 的 符号 的 集合 。 提 示 : 不 要 试图 把 QBF 归 约 到 这 个 问题 ， 更 容易 的 做 法 是 证 明 任意 的 zy 
中 的 语言 都 可 以 归 约 到 这 个 问题 。 对 于 每 个 带 多 项 式 空间 限制 的 图 灵机 ， 证 明 如 何在 多 项 式 时 
间 内 从 M 的 输入 w 构 造 出 一 个 正则 表达 式 ， 这 个 表达 式 产生 所 有 这 样 的 惠 ， 这 些 串 不 是 导致 接受 
的 WM 的 ID 序列 。 

1 习题 11.3.3 ”香农 开关 游戏 如 下 所 述 。 给 定 一 个 带 有 两 个 终端 顶点 s 和 的 图 G: 有 两 个 选手 
可 以 称 为 SHORT 和 CUT。SHORT 先 走 ， 每 个 选手 轮流 选择 除 s 和 /之 外 的 一 个 G 顶 点 ， 这 个 顶点 
在 后 面 的 游戏 中 就 属于 这 个 选手 。SHORT 获 胜 是 通过 选择 一 组 顶 志 ， 加 上 s 和 ;就 形成 G 中 从 s* 到 1/ 
的 一 条 路 径 。CUT 获 胜 的 条 件 是 所 顶点 都 被 挑选 完毕 ， 而 SHORT 还 没有 选 出 从 * 到 /的 路 径 。 证 
明 下 述 问题 是 PS 完全 的 ; 给 定 G， 无 论 CUT 做 出 什么 选择 ，SHORT 能 否 必 胜 ? 


11.4 基于 随机 化 的 语言 类 


现在 把 注意 力 转向 用 下 列 图 灵机 定义 的 两 个 语言 类 ， 这 些 图 灵机 有 能 力 在 计算 中 使 用 随机 
数 。 读 者 可 能 熟悉 用 普通 程序 设计 语言 编写 的 一 些 算法 ， 这 些 算法 为 了 某 种 有 用 的 目的 而 使 用 
随机 数 发 生 器 。 从 技术 上 说 ， 函 数 rand ( ) 或 具有 类 似 名 称 的 函数 返回 似乎 “随机 ”或 不 可 预测 
的 数 ， 虽 然 非 常 难以 看 出 所 产生 数 序列 中 的 “模式 ”"， 但 是 实际 上 这 种 函数 执行 了 可 以 被 模拟 的 
特殊 算法 。 这 种 函数 的 一 个 简单 例子 (在 实际 中 不 使 用 ) 可 能 是 这 样 的 过 程 ， 取出 序列 中 的 前 
一 个 整数 ， 把 这 个 整数 平方 ， 取 出 乘积 中 间 的 那些 位 。 使 用 复杂 的 机 械 过 程 (比如 这 里 的 这 个 ) 
产生 的 数 被 称 为 伪 随 机 数 。 





在 本 节 里 将 要 定义 为 在 算法 中 产生 随机 数 和 利用 随机 数 而 建立 模型 的 这 种 类 型 的 图 灵机 。 
然后 定义 两 个 语言 类 RP 和 ZPP ， 这 两 个 类 以 不 同 的 方式 来 利用 随机 性 和 多 项 式 时 间 限 制 。 有 趣 
的 是 ， 虽 然 这 些 类 似乎 不 包含 除 P 以 外 的 东西 ， 但 是 这 些 类 与 ? 的 差别 是 重要 的 。 具 体 地 ， 在 
11.5 节 将 看 到 为 什么 关于 计算 机 安全 的 某 些 最 基本 的 问题 ， 其 实 就 是 关于 这 些 类 与 了 和 mp 的 关 
系 问 题 。 


11.4.1 快速 排序 ， 随 机 算法 举例 


读者 可 能 熟悉 所 谓 “ 快 速 排序 ”的 排序 算法 。 这 个 算法 的 基本 内 容 如 下 。 给 定 有 待 排 序 的 
TRKA, a, …, a， 挑 选 一 个 元 素 ， 比 方 说 a1， 把 表 分 成 不 小 于 ai 的 元 素 和 大 于 a 的 元 素 。 挑 先 
的 这 个 元 素 称 为 枢 轴 (pivot) 。 如 果 小 心地 表示 数据 ， 就 可 以 在 O(n) 时 间 内 把 长 度 为 n 的 一 个 表 
分 成 总 长 度 为 "的 两 个 表 。 而 且 可 以 独立 地 给 低 元 素 (不 大 于 枢 轴 的 ) 和 高 元 素 (大 于 枢 轴 的 ) 
递归 地 排序 ， 结 果 将 是 所 有 n 个 元 素 的 排序 表 。 

如 果 运 气 好 ， 那 么 事实 上 枢 轴 将 是 排序 表 中 间 的 那个 数 ， 所 以 两 个 子 表 各 自 大 约 长 WZ。 如 
果 在 每 个 递归 阶段 都 运气 好 ， 那 么 在 大 约 logan 层 递归 之 后 这 个 表 的 长 度 就 是 1， 并 且 这 些 表 已 经 
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排序 。 因 此 ， 总 工作 量 将 是 O(log ) 层 ， 每 层 需 要 O(n) 工 作 量 ， 或 者 总 共 是 O(n logn). 

但 是 可 能 运气 不 好 。 例 如 ;如 果 开 始 时 这 个 表 碰巧 排序 过 ， 那 么 挑选 每 个 表 的 头 一 个 元 素 ， 
将 把 这 个 表 分 成 : 一 个 元 素 属于 低 子 表 ， 所 有 其 余 元 素 属 于 高 子 表 。 如 果真 是 这 样 的 , 则 快速 
排序 的 执行 就 非常 像 是 选择 排序 ;排序 个 元 素 所 花费 的 时 间 与 到 成 比例 。 

因此 快速 排序 的 良好 实现 ， 不 是 机 械 地 把 表 中 任何 特殊 位 置 选 为 枢 轴 ， 而 是 从 表 中 所 有 元 
素 中 随机 地 选择 枢 轴 。 也 就 是 说 ，n 个 元 素 每 个 都 有 1/n 概 率 被 选 为 枢 轴 。 虽 然 这 里 将 不 证 明 这 
个 断言 ， 但 是 事实 上 这 种 随机 化 快速 排序 的 期 望 运行 时 间 是 O(n log )。 不 过 由 于 在 极 微小 的 
机 会 下 枢 轴 选择 会 选取 最 大 或 最 小 的 那个 元 素 ， 快 速 排 序 的 最 坏 运 行 时 间 仍然 是 O(n”)。 但 是 快 
速 排序 仍然 是 许多 应 用 中 的 首选 方法 (比如 用 在 UNIX 的 排序 命令 中 )， 因 为 与 其 他 方法 相 比 ， 
甚至 与 在 最 坏 情 况 下 是 O(n log n) 的 方法 相 比 ， 快 速 排序 的 期 望 运行 时 间 确 实 相当 好 。 


11.4.2 随机 化 的 图 灵机 模型 


为 了 抽象 地 表示 图 灵机 做 随机 选择 的 能 力 ， 这 种 图 灵机 非常 类 似 于 一 次 或 多 次 调用 随机 数 
产生 器 的 程序 ， 将 要 使 用 如 图 11-6 所 示 的 多 
带 图 灵机 的 变 体 。 如 同 多 带 图 灵机 的 惯例 那 
样 ， 第 一 条 带 记录 输入 。 第 二 条 带 开头 的 单 





有 穷 控制 














元 中 也 是 非 空格 。 事 实 上 从 原则 上 说 ， 整 条 

带 上 都 覆盖 着 0 和 1， 每 一 个 都 是 独立 地 和 随 

机 地 选择 的 ，1/2 概 率 为 0， 以 同样 概率 为 1。 ) 
第 二 条 带 将 被 称 为 随机 带 。 第 三 条 带 和 后 面 输入 l 








的 带 〈 假 如 用 到 的 话 ) 开始 都 是 空白 带 ， 并 
且 被 图 灵机 在 需要 时 用 作 “ 草 稿 带 "。 这 种 ”随机 位 … 00101000101001000010061 111 … 
图 灵机 模型 被 称 为 随机 化 图 灵机 。 

把 随机 化 图 灵机 初始 化 为 用 随机 的 0 和 1 ”草稿 带 
去 覆盖 一 条 无 穷 带 ， 由 于 这 样 的 想像 可 能 不 E 
太 现实 ， 所 以 这 种 图 灵机 的 等 价 想像 图 就 是 图 11-6 有 能 力 使 用 随机 地 “产生 的 ” 数 的 图 灵机 
第 三 条 带 开始 时 是 空白 带 。 但 是 ， 当 第 二 个 带头 正在 扫描 一 个 空格 时 ， 就 发 生 一 次 内 部 “ 抛 硬 
币 "， 随 机 化 图 灵机 立即 在 扫描 的 带 单元 上 写 下 0 或 1， 并 且 永 远离 开 那里 不 再 改变 。 通 过 这 种 
方式 ， 在 启动 随机 化 图 灵机 之 前 ， 不 存在 任何 工作 (当然 不 存在 无 穷 的 工作 )。 但 是 第 二 条 带 
似乎 覆盖 着 随机 的 0 和 1， 因 为 随机 化 图 灵机 的 第 二 个 带头 实际 上 读 到 哪里 ， 这 些 随 机 位 就 出 现 
在 哪里 。 














例 11.12 ， 可 以 在 随机 化 图 灵机 上 实现 随机 化 版 本 的 快速 排序 。 重要 步 允 是 选取 子 表 的 递归 
过 程 ， 假 设 子 表 是 连续 地 存放 在 输入 带 上 ,在 两 端 用 标记 来 指明 子 表 的 范围 ， 随 机 地 挑选 枢 轴 ， 
把 子 表 分 成 低 的 和 高 的 子 子 表 。 随 机 化 图 灵机 工作 方式 如 下 : 


”对 快速 排序 期 望 运行 时 间 的 分 析 和 证 明 ， 可 以 在 D.E.Knuth 的 《The Art of Computer Programming, Vol. III: 
Sorting and Searching) (Addison-Wesley, 1973) 一 书 中 找到 。 
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1. 假设 待 分 的 子 表 长 度 为 ms 使 用 第 二 条 带 上 大 约 Odog mm) 个 新 随机 位 来 挑选 一 个 在 1 与 m 之 
间 的 随机 数 ， 子 表 的 第 m 个 元 素 成 为 枢 轴 。 注 意 ; 也 许 不 能 以 绝对 相等 的 概率 来 选择 1 到 
之 间 的 每 一 个 数 ， 因 为 m 可 能 不 是 2 的 矫 。 但 是 如 果 从 带 2 取出 比方 说 [21ogsmm] 位 ， 把 这 
些 位 当 作 在 0 到 大 约 mr 范围 内 的 一 个 数 ， 取 这 个 数 除 以 m 的 余数 加 上 一 ， 就 将 以 足够 接近 
lm 的 概率 来 得 出 在 1 到 m 之 间 的 所 有 数 ， 使 得 快速 排序 正常 地 工作 。 

2. 把 枢 轴 写 在 带 3 上 。 

3. 扫描 在 带 1 上 描绘 的 子 表 ， 把 那些 不 大 于 枢 轴 的 元 素 都 复制 到 带 4 去 。 

4. 再 次 扫描 在 带 1 上 的 子 表 ， 把 那些 大 于 枢 轴 的 元 素 都 复制 到 带 5 去 。 

5, 先 把 带 4、 后 把 带 5 复制 到 带 1 的 空间 去 ， 这 个 空间 过 去 记录 过 所 描绘 的 子 表 。 在 两 个 子 表 

之 间 放 一 个 记号 。 

6. 如 果子 表 其 中 之 一 或 两 者 都 有 多 于 一 个 元 素 ， 就 用 同样 的 算法 来 递归 地 给 它们 排序 。 
注意 ， 即 使 计算 装置 是 多 带 图 灵机 而 不 是 常规 计算 机 ， 快速 排序 的 这 个 实现 也 花费 O(n log nikt 
间 。 但 是 这 个 例子 的 要 点 不 是 运行 时 间 ， 而 是 在 第 二 条 带 上 使 用 随机 位 来 促成 图 灵机 的 随机 行 
为 。 口 


11.4.3 随机 化 图 灵机 的 语言 


每 一 台 图 灵机 (或 者 FA 或 PDA) 都 接受 某 个 语言 ， 即 使 这 个 语言 是 空 集合 或 输入 字母 表 上 
所 有 串 的 集合 ， 对 这 种 情形 也 是 习以为常 的 。 当 涉及 随机 化 图 灵机 有 时， 需要 更 仔细 地 规定 图 灵 
机 接受 输入 这 意味 着 什么 ， 而且 有 可 能 是 随机 化 图 灵机 根本 不 接受 任何 语言 问题 在 于 ， 当 考 
虚 随 机 化 图 灵机 AM 做 什么 来 响应 输入 w 时 ， 和 需要 根据 随机 带 上 所 有 可 能 的 内 容 来 考虑 M。 完 全 有 
可 能 是 W 对 某 些 随机 串 接受 ， 而 对 其 他 随机 串 拒绝 # 事实 上 如 果 随机 化 图 灵机 比 确定 型 图 灵机 
更 有 效率 地 做 任何 事情 ,那么 随机 带 的 不 同 内 容 导致 不 同 的 行为 就 是 关键 所 在 。e 

就 像 常规 计算 机 那样 ， 如 果 把 随机 化 图 灵机 进入 终结 状态 当 作 是 接受 ， 那 么 随机 化 图 灵机 
的 每 个 输入 都 有 茶 个 接受 概率 ， 这 个 接受 概率 就 是 随机 带 可 能 导致 接受 的 内 容 所 占 的 比例 。 由 
于 有 无 穷 多 种 可 能 的 带 内 容 ， 所 以 必须 稍微 仔细 地 计算 这 个 概率 。 然 而 ， 任 何 导致 接受 的 移动 
序列 都 只 考虑 随机 带 的 有 穷 部 分 ， 所 以 如 果 m 是 随机 带 的 单元 数 ， 这 些 单元 都 已 被 扫描 过 ， 而且 
至 少 影响 过 M 的 一 步 移动 ， 那 么 在 这 些 单元 里 看 到 的 任何 东西 都 以 等 于 2-" 的 有 穷 概率 来 发 生 。 
下 一 个 例子 将 要 解释 在 极端 简单 情形 之 下 的 这 种 计算 。 


例 11.13 ， 随 机 化 图 灵机 M 具 有 如 图 11-7 所 示 的 转移 函数 。 M 只 用 一 条 输入 带 和 一 条 随机 带 。 
MM 以 非常 简单 的 方式 来 运行 ， 从 不 改变 任何 带 上 的 符号 ,带头 只 向 右 移 (方向 R) 或 保持 静止 
(方向 8)。 虽 然 没 有 定义 随机 化 图 灵机 移动 的 形式 化 概念 ， 但 是 图 11-7 中 的 各 项 应 当 易于 理解 ， 
每 行 对 应 于 一 个 状态 ， 每 列 对 应 于 一 对 符号 XY， 其 中 Xx 是 在 输入 带 上 被 扫描 的 符号 ;7 是 在 随机 
带 上 被 扫描 的 符号 。 表 中 gUVDE 项 的 意思 是 :图 灵机 进入 状态 gq; Fem AH LSU, ZBI E 
写 V， 输 入 带头 沿 方向 D 移 动 ， 随 机 带头 沿 方向 E 移 动 。 





日 ”读者 应 当知 道 ， 例 11.12 所 搞 述 的 随机 化 图 灵机 不 是 识别 语言 的 图 灵机 更 确切 地 说 ， 这 个 图 灵机 在 输入 上 完 
成 一 个 变换 ， 这 个 变换 的 运行 时 间 (而 不 是 输出 ) 依赖 于 在 随机 带 上 曾 有 过 什么 内 容 。 
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00 01 10 11 Bo Bl 
Fu | q00RS q01SR gioRS qs11SR 
@ | n00RS quB0SS 
Q q10RS qa BOSS 
gs | ga00RR BIRR quB0OSS qsB1SS 


图 11-7 随机 化 图 灵机 的 转移 函数 


这 里 总 结 一 下 在 0 和 1 组 成 的 输入 串 w 上 M 如 何 运行 。 在 初始 状态 go 下 ，M 考 虑 第 一 个 随机 位 ， 
根据 这 个 随机 位 是 0 还 是 1 来 完成 关于 w 的 两 种 测试 中 的 一 种 。 

如 果 这 个 随机 位 是 09， 那么 M 测 试 w 是 否 只 包含 一 种 符号 (0 或 1) 。 在 这 种 情况 下 ，M 不 考虑 
更 多 的 随机 位 ， 而 是 保持 第 二 个 带头 静止 。 如 果 w 的 第 一 位 是 0， 那 么 WM 进 入 状态 9,。 在 4 状态 下 
M 在 0 上 向 右 移动 ， 但 看 到 1 就 死机 。 如 果 M 在 4, 状态 下 到 达 输 入 带 的 第 一 个 空格 ， 就 进入 44 状 态 ， 
这 是 接受 状态 。 类 似 地 ， 如 果 w 的 第 一 位 是 1 并 且 第 一 个 随机 位 是 0， 那 么 M 进 入 状态 4， 在 4: 状 
态 下 W 验 证 是 否 w 的 所 有 其 他 位 都 是 1， 如 果 是 就 接受 。 

现在 考虑 如 果 第 一 个 随机 位 是 1， 那 么 M 做 什么 。M 比 较 w 和 第 二 位 以 后 的 随机 位 ， 仅 当 这 
些 位 相同 时 才 接 受 。 在 qo 状态 下 在 第 二 条 带 上 扫描 !:，M 进 入 q: 状 态 。 注 意 ， 当 这 样 做 时 ， 
MM 把 随机 带头 向 右 移 ， 所 以 M 看 到 新 的 随机 位 ， 同 时 保持 输入 带头 静止 ， 从 而 所 有 w 都 将 与 随机 
位 比较 a 在 qi 状态 下 M 匹 配 这 两 条 带 ， 把 两 条 带头 都 向 右 移 。 如 果 MM 在 某 点 发 现 不 匹配 ， 就 死机 
不 接受 ， 而 如 果 M 到 达 输 入 带 上 的 空格 ,就 接受 。 

现在 计算 某 些 答 入 的 接受 概率 。 首 先 考虑 均匀 输入 ， 即 只 包括 一 种 符号 的 输入 ， 比 如 0， 对 
于 某 个 i>1。 以 1/2 概 率 第 一 个 随机 位 将 是 9， 如 果 是 这 样 ， 那 么 均匀 性 测试 将 成 功 ， 确 实 接受 0'。 
但 是 ， 同 样 以 1/2 概 率 ， 第 一 个 随机 位 是 1。 在 这 种 情况 下 接受 0'， 当 且 仅 当 从 第 2 个 到 第 i + 1 个 
随机 位 都 是 9。 这 个 事件 发 生 的 概率 是 2*。 因 此 ， 接 受 0' 的 总 概率 是 

LL 


Bh Saat 
二 + 二 2 二 +2: 
入 2? 2 


现在 考虑 非 均匀 输入 w， 即 既 有 0 又 有 1 的 输入 ， 比 方 说 00101。 如 果 第 一 个 随机 位 是 0， 那 么 
决 不 会 接受 这 个 输入 。 如 果 第 一 个 随机 位 是 1， 那 么 这 个 输入 的 接受 概率 是 2.， 其 中 泥 输 入 长 
度 。 因 此 长 度 为 的 非 均匀 输入 的 总 接受 概率 是 2“*?。 例 如 ，00101 的 接受 概率 是 1/64。 口 


结论 是 可 以 计算 任何 给 定 随机 化 图 灵机 对 任何 给 定 串 的 接受 概率 。 这 个 种 是 否 属于 这 个 语 
言 依赖 于 如 何 定义 随机 化 图 灵机 语言 的 “成 员 性 "。 下 一 节 将 给 出 两 种 不 同 的 接受 定义 ; 每 一 种 
定义 导致 一 种 不 同 的 语言 类 。 


11.4.4 Rp 类 


所 请 RP (表示 “随机 多 项 式 ") 的 第 一 个 语言 类 的 实质 是 : 要 属于 Rp， 语言 L 必 须 被 随机 
化 图 灵机 M 在 下 列 意义 下 接受 : 

1. 如果 w 不 属于 L， 那 么 M 接 受 w 的 概率 是 0。 

2. 如 果 w 属 于 L， 那 么 M 接 受 w 的 概率 至 少 是 1/2。 

3; 存 在 多 项 式 T(n)， 使 得 如 果 输 入 w 长 度 为 x"， 那 么 无 论 随机 带 的 内 容 是 什么 ，M 的 所 有 运行 
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都 在 至 多 7T(n) 步 后 停机 





非 确定 性 与 随机 性 


在 随机 化 图 灵机 与 非 确定 型 图 灵机 之 间 存 在 着 一 些 表面 上 的 相似 之 处 。 可 以 设想 非 确 
定型 图 灵机 的 非 确定 性 选择 受到 一 条 有 随机 位 的 带 的 控制 ， 每 一 次 当 非 确定 型 图 灵机 选择 
移动 时 ， 这 个 图 灵机 就 咨询 随机 带 ， 并 以 相等 的 概率 从 各 种 选择 中 挑选 一 种 。 但 是 ， 如 果 
以 这 样 的 方式 来 解释 非 确定 型 图 灵机 ， 那 么 接受 规则 就 与 RP 的 规则 有 所 不 同 。 实 际 上 ， 
如 果 输 入 的 接受 概率 是 0， 就 拒绝 这 个 输入 ， 如 果 输 入 的 接受 概率 是 大 于 0 的 任意 值 ， 无 论 
多 么 小 ， 就 接受 这 个 输入 。 











注意 , RP 的 这 个 定义 提 及 两 个 独立 事项 。 第 (1) 点 和 第 (2) 点 定义 了 特殊 类 型 的 随机 化 图 灵机 ， 
这 种 图 灵机 有 时 称 为 蒙特 * FB (Monte-Carlo) 算法 。 也 就 是 说 ， 不 考虑 运行 时 间 ， 如 果 要 么 
以 0 概率 接受 ， 要 么 以 至 少 1/2 概 率 接受 ， 就 可 以 说 这 种 图 灵机 是 “蒙特 卡 洛 ” 的。 第 (3) 点 仅 
仅 提 及 运行 时 间 ， 这 一 点 与 图 灵机 是 否 是 “蒙特 . 卡 洛 ”的 是 不 相关 的 。 


例 11.14 | 考虑 例 11.13 中 的 随机 化 图 灵机 。 这 个 图 灵机 确实 满足 条 件 (3)， 因 为 无 论 随机 可 的 
内 容 是 什么 ， 共 运行 时 间 都 是 O(n)。 但 是 在 RP 定义 所 要 求 的 意义 下 ， 这 台 图 灵机 根本 不 接受 任 
何 语言 。 原 因 在 于 ， 虽 然 至 少 以 1/2 概 率 接受 像 000 这 样 的 均匀 输入 ， 因此 满足 第 (2) 点 ， 但 是 存 
在 其 他 输入 《〈 像 001) 是 以 既 不 是 0 又 不 是 至 少 1/2 的 概率 来 接受 的 例如 以 1116 概 率 接受 001。 口 


例 1.15， 非 形式 化 地 描述 一 台 随机 化 图 灵机 ， 这 台 图 灵机 既是 多 项 式 时 间 的 又 是 蒙特 < 卡 
洛 的 ， 因 此 接受 RP 语言 。 将 把 输入 解释 成 图 ， 问 题 是 图 是 否 有 三 角形 ， 也 就 是 说 ， 三 个 顶点 中 
任何 一 对 顶点 有 边 连接 。 带 三 角形 的 输入 都 属于 这 个 语言 ， 其 他 输入 都 不 属于 。 

这 个 蒙特 . 卡 洛 算法 将 反复 地 随机 挑选 一 条 边 (x,y)， 而 且 还 随机 地 挑选 x 和 y 以 外 的 顶点 z。 
每 个 选择 都 是 考虑 了 随机 带 上 某 些 新 的 随机 位 而 确定 的 。 对 于 选择 的 每 个 :、y 和 z， 这 台 图 灵机 
测试 输入 是 否 带 有 边 (x, 引 和 (Gy,z)， 如 果 是 ， 就 宣布 输入 图 带 有 三 角形 。 

总 共 进行 次 选择 ， 每 次 选择 一 条 边 和 一 个 顶点 ， 这 台 图 灵机 接受 ， 当 且 仅 当 证 实 其 中 一 次 
是 三 角形 ， 如 果 都 没有 证 实 ， 就 放弃 且 不 接受 。 如 果 这 个 图 没有 三 角形 ， 就 不 可 能 证 实在 这 k 次 
选择 中 其 中 一 次 是 三 角形 , 所 以 符合 Rp 定义 中 的 条 件 (1); 如 果 输 入 不 属于 语言 ， 那 么 接受 概率 
就 是 0。 

假设 这 个 图 有 n 个 顶点 和 e 条 边 。 如 果 这 个 图 至 少 有 一 个 三 角形 那么 在 任何 二 次 试验 中 这 


三 个 顶点 将 被 选中 的 概率 就 是 A 也 就 是 说 ，e 条 边 之 中 有 三 条 边 属于 这 个 三 角形 ， 如 


果 选 中 这 三 条 边 之 中 的 任何 一 条 边 ， 那 么 也 选中 第 三 个 顶点 的 概率 就 是 In 一 2)。 这 个 概率 不 大 ， 
但 是 试验 重复 了 k 次 。 这 k 次 试验 至 少 有 一 次 产生 三 角形 的 概率 是 ， 


上 


3 
(ee a1) 
有 二 种 常用 的 近似 公式 说 对 于 不 的 z，(1 一 叉 近 似 地 是 ce- 其 中 e= 2718::: 是 自然 对 数 的 底 





Download at http://www.pinSi.com/ 


HTK 347 





数 。 因 此 ， 如 果 选 择 R 使 得 (比如 ) ke = 1, MAh RASA REA 1/2, 而 1 一 “就 将 明显 地 
大 于 1/2， 更 准确 地 说 大 约 是 0.63。 因 此 可 以 选择 E = eln 一 2)/3， 以 保证 让 带 三 角形 的 图 的 接受 概 
率 至 少 是 1/2， 如 式 (11-4) 给 出 的 那样 。 因 此 所 描述 的 算法 是 蒙特 . 卡 洛 的 。 

现在 必须 考虑 这 台 图 灵机 的 运行 时 间 。e 和 n 都 不 大 于 输入 长 度 ， 选 择 k 为 不 大 于 输入 长 度 的 
平方 ， 因 为 与 ec 和 mn 的 乘积 成 比例 。 由 于 每 次 试验 至 多 扫描 输入 四 饥 (挑选 随机 边 和 顶点 ， 然 后 
验证 另外 两 条 边 的 存在 ) ， 所 以 每 次 试验 的 时 间 都 是 输入 长 度 的 线性 函数 。 因 此 至 多 在 输 大 长 度 
的 立方 时 间 之 后 ， 这 人 台 图 灵机 就 停机 ， 即 这 人 台 图 灵机 具有 多 项 式 运行 时 间 ， 因 此 满足 语言 属于 
RP 的 第 三 个 和 最 后 一 个 条 件 。 

结论 是 带 三 角形 的 图 的 语言 属于 RP 类 。 注 意 ， 这 个 语言 也 属于 P， 因 为 可 以 系统 地 搜索 所 
有 可 能 的 三 角形 。 但 是 正如 在 11.4 节 开头 指出 过 的 那样 ， 实 际 上 难以 找 出 那些 似乎 属于 RP 一 2 
的 例子 。 o 


11.4.5 识别 Rp 语言 


假设 现在 有 一 台 识 别 语言 [的 多 项 式 时 间 的 蒙特 . 卡 洛 图 灵机 M。 给 定 串 w， 需 要 知道 w 是 否 属 
于 L。 如 果 在 w 上 运行 M， 利 用 抛 硬币 或 者 其 他 一 些 随机 数 产 生 装 置 来 模拟 产生 随机 位 ， 就 可 以 知道 : 

1. 如 果 w 不 属于 L， 这 样 的 运行 将 肯定 不 导致 接受 w。 

2, 如 果 w 属 于 L， 就 至 少 有 50% 机 会 将 接受 w。 





定义 中 的 分 数 1/2 有 何 特殊 吗 ? 


虽然 定义 KZ 时 要 求 属于 L 的 串 w 的 接受 概率 应 当 至 少 是 112; 但 是 也 可 以 用 适当 介 于 0 与 
1 之 间 的 任何 常数 来 代替 1/2 去 定义 RP。 定 理 11.16 说 通过 适当 次 数 重复 M 所 做 的 试验 ， 就 可 
以 让 接受 概率 要 多 高 就 有 多 高 ， 一 直达 到 但 不 包含 1。 而 且 通 过 让 试验 重复 某 常数 次 ， 与 
在 11.4.5 节 用 来 降低 属于 L 的 串 的 非 接受 概率 ， 相 同 技术 将 允许 把 随机 化 图 灵机 接受 属于 
的 w 的 概率 从 任何 大 于 0 的 值 增加 到 1/2。 

我 们 将 继续 要 求 把 1/2 作 为 RP 定义 中 的 接受 概率 ， 但 是 应 当知 道 任何 非 零 的 概率 都 是 以 
用 在 RP 类 的 定义 中 。 另 一 方面 ， 把 这 个 常数 从 1/2 改 成 其 他 值 ， 将 改变 具体 的 随机 化 图 灵机 
所 定义 的 语言 。 例 如 ， 在 例 11.14 中 注意 到 ， 把 要 求 的 概率 降低 到 1/16， 将 如 何 导致 囊 001 
属于 在 那里 讨论 的 随机 化 图 灵机 所 接受 的 语言 。 











但 是 ， 如 果 简 单 地 把 这 样 运行 的 输出 当 作 是 权威 性 的 ， 那 么 当 本 来 应 当 接受 w 时 ， 有 时 将 拒 
绝 w ( 齐 真 结果 )， 尽 管 当 本 来 不 应 当 接受 w 时 ， 将 决 不 会 拒绝 w (到 伪 结 果 )。 因 此 必须 在 随机 
化 图 灵机 本 身 与 用 来 判定 w 是 否 属于 Z 的 算法 之 间 做 出 区 分 。 虽 然 永 远 不 能 彻底 避免 弃 真 ， 但 是 
通过 多 次 重复 试验 就 能 把 弃 真 的 概率 降低 到 要 多 小 就 有 多 小 。 

比如 ， 如 果 需 要 让 弃 真 概率 是 十 亿 分 之 一 ， 那 么 可 以 把 测试 运行 30 次 。 如 果 w 属 于 L， 那 么 
所 有 30 次 测试 都 不 导致 接受 的 机 会 就 不 超过 2-*， 这 个 值 小 于 103， 即 小 于 十 亿 分 之 二 。 通 常 ， 
如 果 需 要 让 奔 真 概率 小 于 c(c > 0)， 就 必须 把 测试 运行 logx(1/c) 次 。 由 于 如 果 < 是 常数 ， 则 这 个 次 
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数 就 是 常数 ， 并 且 由 于 随机 化 图 灵机 的 一 次 运行 花费 多 项 式 时 间 (因为 假设 5 属于 RP )， 所 以 知 
道 这 样 的 反复 测试 也 花费 多 项 式 时 间 。 把 这 些 考虑 的 结果 叙述 成 下 面 这 个 定理 。 


定理 11.16 ”如 果 L 属 于 RP ， 那 么 对 于 任何 常数 c > 0， 无 论 c 多 么 小 ， 都 存在 多 项 式 时 间 随 
机 化 算法 判定 输入 w 是 否 属于 L， 这 个 算法 没有 取 伪 错误 ， 弃 真 错误 的 概率 不 大 于 c。 o 


11.4.6 ZPP% 


与 随机 化 有 关 的 第 二 个 语言 类 被 称 为 替 错 误 概率 多 项 式 ( 即 5PP)。 这 个 类 是 基于 一 种 总 是 
停机 ， 并 且 停 机 的 期 望 时 间 是 输入 长 度 的 某 个 多 项 式 的 随机 化 图 灵机 。 如 果 这 种 图 灵机 进入 接 
受 状态 (因此 在 这 个 时 刻 停机 )， 就 接受 输入 ， 而 如 果 停 机 不 接受 ， 就 拒绝 输入 。 因 此 ，Zep 类 
的 定义 几乎 与 ?的 定义 相同 ， 不 同 之 处 在 于 ，zPP 允许 图 灵机 的 行为 与 随机 性 有 关 ， 并 且 度 量 
的 是 期 望 运行 时 间 而 不 是 最 坏 情形 运行 时 间 。 

总 是 给 出 正确 答案 但 运行 时 间 根据 某 些 随机 位 的 值 而 变化 的 图 灵机 有 时 称 为 拉 斯 Hi 
图 灵机 (Las-Vegas Turing machine) 或 拉 斯 ， 维 加 斯 算法 。 因 此 可 以 认为 zer 是 带 多 项 式 期 户 
运行 时 间 的 拉 斯 * 维 加 斯 图 灵机 所 接受 的 语言 。 


11.4.7 RP 5 ZEP 之 间 的 关系 


在 已 经 定义 的 两 个 随机 化 类 之 间 有 一 种 简单 的 关系 。 为 了 叙述 这 个 定理 ， 首 先 需要 考虑 这 
些 类 的 补 。 应 当 清楚 的 是 ， 如 果 Z 属 于 ZPP， 那 么 工 也 属于 ZPP。 原 因 在 于 ， 如 果 多 项 式 期 望 时 
间 的 拉 斯 * 维 加 斯 图 灵机 MM 接受 L， 那 么 M 的 修改 型 就 接受 工 ， 其 中 把 M 的 接受 状态 改 为 停机 
不 接受 状态 ， 而 如 果 M 停 机 不 接受 ， 就 进入 接受 状态 并 停机 。 

但 是 RP 对 补 封 闲 却 并 不 是 显而易见 的 ， 因 为 蒙特 ， 卡 洛 图 灵机 的 定义 非 对 称 地 处 理 接受 和 
拒绝 。 因 此 ， 定 义 RP 补 (co-RP)。 类 为 使 得 工 属于 RP 的 那些 语言 的 集合 ， 即 co-wz 是 RP 语言 
的 补 。 





定理 11.17 ZPP=RPN co-RP 。 

证 明 首先 证 明 RPN co-RP CoP, (IRIE RPEN co-RP 。 也 就 是 说 ，L 和 工 都 有 蒙特 - 
卡 洛 图 灵机 ,各 自 都 有 多 项 式 运行 时 间 。 假 设 p(n) 是 大 到 足以 限制 这 两 台 机 器 运行 时 间 的 多 项 式 。 
设计 接受 [的 拉 斯 维 加 斯 图 灵机 M 如 下 。 

.运行 [的 蒙特 卡 洛 图 灵机 ， 如 果 这 个 图 灵机 接受 ，M 就 接受 并 停机 。 

2, 如 果 这 个 图 灵机 不 接受 ， 就 运行 工 的 蒙特 : 卡 洛 图 灵机 。 如 果 这 台 图 灵机 接受 ，M 就 停 

MARZ. GM, MEERA), 

显然 仅 当 输入 w 属 于 L 时 ，M 才 接受 w， 并 且 仅 当 w 不 属于 L 时 ，M 才 拒绝 w。 一 轮 (步骤 1 和 
步 又 2 的 一 次 执行 ) 的 期 望 运行 时 间 是 2p(n)。 另 外 ， 任 何 一 轮 将 解决 问题 的 概率 至 少 是 112。 如 
果 w 属 于 L， 那 么 步骤 (1) 有 50% 机 会 导致 M 接 受 ， 而 如 果 w 不 属于 L， 那 么 步骤 (2) 有 50% 机 会 导致 





MM 拒绝 。 因 此 M 的 期 望 运行 时 间 不 超过 


O 在 下 文中 为 了 在 公式 中 便于 表述 ， 多 用 co-#P 表 示 RP 补 .一 编者 注 
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2p() + 32p(n) + 2p(n) +22 p(n) + = 4p(n) 


现在 ， 考 虑 逆 命 题 : 假设 L 属 于 ZPP ， 并 证 明 L 既 属于 RP 又 属于 co-RP 。 已 知 拉 斯 * 维 加 斯 
图 灵机 Mi 接受 L，M1 的 期 望 运行 时 间 是 某 个 多 项 式 p(n)。 构 造 接受 [的 蒙特 - 卡 洛 图 灵机 M2 如 下 。 
M; 模 拟 Mi 达 2p(n) 步 。 如 果 M 在 此 期 间接 受 ，M; 就 接受 ， 否则 Mi; 就 拒绝 。 

假设 长 度 为 n 的 输入 w 不 属于 L。 那 么 Mi 将 肯定 不 接受 w， 因 此 M2 也 将 不 接受 。 现 在 假设 w 属 
于 L。 虽 然 M' 将 肯定 最 终 接受 w， 但 是 在 2p(n) 步 之 内 既 可 能 接受 也 可 能 不 接受 。 

但 是 可 以 断言 M 在 2p(n) 步 之 内 接受 w 的 概率 至 少 是 1/2。 假 设 MM 在 2p(m) 时 间 之 内 接受 w 的 概 
率 是 常数 c<1/2。 那 么 M, 在 输入 w 上 的 期 望 运行 时 间 就 至 少 是 (1 一 c)2p(m)， 因 为 1 一 是 M, 将 要 花 
费 超过 2p(m) 时 间 的 概率 。 但 是 ， 如 果 c<1/2， 那 么 2(1 一 c) > 1，Mi 在 w 上 的 期 望 运行 时 间 就 大 于 
P(D)。 这 样 就 与 MI 的 期 望 运行 时 间 至 多 是 p(m) 的 假设 发 生 了 矛盾 ， 因 此 就 证 明了 AM: 的 接受 概率 至 
少 是 1/2。 因 此 Ms 是 带 多 项 式 时 间 限 制 的 蒙特 . 卡 洛 图 灵机 ， 这 就 证 明了 L 属 于 RP, 

对 于 L 也 属于 co-Rzp 的 证 明 ， 基 本 上 使 用 同样 的 构造 ， 但 是 把 M, 的 输出 取 补 。 也 就 是 说 ， 为 
了 接受 工 ， 当 加 在 2p(m) 时 间 之 内 拒绝 时 ， 就 让 M5 接受， 否则 就 让 Ms 拒绝 。 现 在 M, 就 是 接受 L 
的 带 多 项 式 时 间 限制 的 蒙特 . 卡 洛 图 灵机 。 口 


11.4.8 与 2 类 和 NP 类 的 关系 
定理 11.17 说 ZeP C RP 。 通 过 下 面 的 简单 定理 ， 可 以 把 这 些 类 置 于 P 和 NP 之 间 。 


定理 11.18 2 C zep 。 
证 明 ”任何 确定 型 的 带 多 项 式 时 间 限 制 的 图 灵机 也 是 拉 斯 . 维 加 斯 的 带 多 项 式 时 间 限 制 的 
图 灵机 ， 这 个 图 灵机 碰巧 不 使 用 随机 选择 的 能 力 。 Q 


定理 11.19 RP CAP 。 
证 明 ”假设 给 定 一 台 带 多 项 式 时 间 限 制 的 蒙特 . 卡 洛 图 灵机 MM 接 
受 语言 [可 以 构造 带 同 样 时 间 限制 的 非 确定 型 图 灵机 M2 也 接受 语言 L。 
每 当 Mi 首 次 检查 一 个 随机 位 时 ，M; 就 非 确定 地 选择 该 随机 位 的 所 有 可 
能 值 ， 并 把 这 个 值 写 在 MM 自己 的 一 条 带 上 ， 这 条 带 模拟 Mi 的 随机 带 。 
每 当 M 接 受 时 ，M; 就 接受 ， 否 则 MM 就 不 接受 。 ‘ ©) ) 
假设 w 属 于 L。 于 是 由 于 Ml 至 少 有 50% 概 率 接受 w， 所 以 在 M 的 随 RY, 
PA LBIES Hw. MAES 
的 位 序列 中 选择 出 这 个 位 序列 ， 从 而 当做 出 了 这 个 选择 时 M2 也 接受 。 


因此 w 属 于 LM;)。 但 是 ， 如 果 w 不 属于 L， 就 没有 随机 位 序列 会 使 M1 接 


受 ， 因 此 没有 随机 位 序列 会 使 M; 接 受 。 因 此 w 不 属于 LM;)。 o 
图 H-8  ZPPHIRP 
图 11-8 说 明 刚 才 介 绍 的 类 与 其 他 “邻近 的 ”类 之 间 的 关系 。 与 其 他 类 的 关系 


11.5 素数 性 测试 的 复杂 性 
本 节 将 考察 一 个 具体 问题 : 测试 一 个 整数 是 否 素数 。 首 先 讨论 这 样 做 的 动机 ， 这 个 动机 涉 
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及 素数 和 素数 性 测试 如 何 成 为 计算 机 安全 系统 中 的 要 素 。 然 后 证 明 素数 集合 既 属 于 NP 又 属于 
co-WPe 。 最 后 讨论 一 个 随机 化 算法 ， 这 个 算法 证 明 素数 集合 也 属于 RP 。 


11.5.1 素数 性 测试 的 重要 性 


如 果 整 数 p 只 能 被 ! 和 p 本 身 整除 ， 就 说 p 是 素数 。 如 果 一 个 整数 不 是 素数 ， 就 说 这 个 整数 是 
合 数 。 在 不 考虑 因子 顺序 的 情况 下 ， 每 个 合 数 都 能 以 惟一 的 方式 写成 素数 的 乘积 。 


例 11.20 ”开头 几 个 素数 是 2、3、5、7、11、13 和 17。 整 数 504 是 合 数 ， 素 因子 分 解 是 2 x 
32x7。 o 


存在 许多 加 强 计算 机 安全 性 的 技术 ， 现 今 使 用 的 最 普通 方法 依赖 于 下 面 这 个 假设 ; 难以 把 
整数 分 解 因子 ， 也 就 是 说 ， 难 以 找 出 给 定 的 合 数 的 素 因 子 。 具 体 地 说 ， 基 于 所 谓 RSA 密 码 ( 代 
表 这 项 技术 的 发 明 者 R. Rivest, A. Shamir 和 L. Adelman) 的 方案 都 使 用 一 个 整数 (如 128 位 )， 这 
个 整数 又 是 各 自 约 长 64 位 的 两 个 整数 的 乘积 。 下 面 是 素数 起 重要 作用 的 两 种 方案 。 

11.5.1.1 公 铀 密码 学 

用 户 需 要 从 网 上 书 商 那 里 购买 一 本 书 。 书 商 询问 用 户 的 信用 卡号 码 ， 但 是 把 号 码 键入 表格 
并 在 电话 线 或 互联 网 上 传输 ， 这 样 做 太 冒 险 了 。 原 因 在 于 ， 某 个 人 可 能 窃听 电话 线 或 拦截 互联 
网 上 传播 的 数据 包 。 

为 了 避免 让 窃听 者 能 够 读 出 信用 卡号 ， 书 商 给 用 户 浏览 器 发 送 密 钥 k， 这 个 密 钥 可 能 是 两 个 
素数 的 128 位 乘积 ， 这 是 书 商 计算 机 专门 为 这 个 目的 而 产生 的 。 用 户 浏览 器 使 用 函数 y = f(x)， 同 
时 输入 密 钥 k 和 需要 加 密 的 数据 r。 这 个 函数 是 RSA 方 案 的 一 部 分 ， 虽然 这 个 函数 可 以 向 大 众 公 
开 ， 包 括 潜 在 的 窃听 者 在 内 ， 但 是 据 信 和 如果 不 知道 的 因子 分 解 ， 就 不 能 在 小 于 k 的 长 度 的 指数 
时 间 之 内 计算 出 反 函 数 庆 '， 使 得 x* = '(y)。 

因此 ， 即 使 窃听 者 看 到 y 并 知道 /如何 工作 ， 但 如 果 不 计算 出 k 然 后 把 k 分 解 因子 ， 那 么 这 个 窃 
听 者 还 是 不 能 恢复 出 x+， 在 本 例 中 x 是 用 户 信用 卡号 。 另 一 方面 ， 网 上 书 商 知 道 的 因子 分 解 ， 因 
为 书 商 最 先 产生 了 密 钥 &:， 所 以 可 以 轻而易举 应 用 庆 ! 并 且 从 y 恢 复出 x。 

11.5.1.2 AMES 

设计 RSA 密 码 的 原始 方案 如 下 。 用 户 愿 意 能 够 给 电子 邮件 “签名 "， 使 得 人 们 能 够 轻而易举 
确定 电子 邮件 来 自用 户 ， 但 是 没有 人 能 “伪造 ”电子 邮件 的 用 户 签名 。 例 如 ， 用 户 可 能 希望 给 
消息 * =“ 我 承诺 支付 李 ' 萨 莉 10 美 元 ”签名 ， 但 是 用 户 不 希望 萨 莉 自己 产生 这 条 签名 消息 ,也 
不 希望 第 三 方 在 用 户 不 知情 的 情况 下 产生 这 条 签名 消息 。 

为 了 支持 这 些 目 标 ， 用 户 选 择 一 个 密 钥 :， 只 有 用 户 才 知道 的 素 因子 。 用 户 向 大 众 公 布 k， 
比方 说 在 用 户 的 网 站 上 ， 使 得 每 个 人 都 可 以 对 任意 消息 应 用 函数 上 六。 如 果 用 户 需要 给 上 述 消息 x 


签名 并 将 其 发 送 给 萨 莉 ， 就 计算 y = 万 "CD 并 把 ?发 送 给 萨 莉 ， 而 不 是 发 送 x。 萨 莉 可 以 从 用 户 的 


O ”本 节 后 面 几 处 提 到 似乎 不 存在 测试 素数 的 多 项 式 时 间 算 法 ， 这 样 的 说 法 现在 当然 过 时 了 ， 对 此 就 不 再 一 一 注 
明 ， 请 读者 自己 注意 。 一 一 译 者 注 
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网 站 上 获得 公 铀 大， 并 据 此 计算 出 x=fiy)。 因 此 她 知道 用 户 确实 承诺 了 支付 10 美 元 。 

如 果 用 户 否认 发 送 了 消息 y， 萨 莉 就 可 以 在 法 官 面前 证 明 只 有 用 户 才 知道 函数 全 '， 无 论 她 或 
任何 第 三 方 都 “不 可 能 ”发 现 这 个 函数 。 因 此 只 有 用 户 才 可 能 产生 y。 这 个 系统 依赖 于 一 个 似乎 
成 立 但 未 经 证 明 的 假设 : 非常 难以 分 解 两 个 大 素数 的 乘积 。 

11.5.1.3 关于 素数 性 测试 的 复杂 性 要 求 

据 信 上 述 两 个 方案 都 是 行 得 通 的 而 且 都 是 安全 的 ， 这 样 说 的 意思 是 : 分 解 两 个 大 素数 的 
乘积 确实 花费 指数 时 间 。 本 章 和 第 10 章 研究 的 复杂 性 理论 通过 两 种 方式 进入 安全 性 和 密码 学 
研究 : 

1. 构 造 公 钥 要 求 能 够 快速 发 现 大 素数 。 数 论 的 基本 事实 是 : n 位 数 成 为 素数 的 概率 具有 1/n 
的 阶 。 因 此 ， 如 果 有 多 项 式 时 间 (就 "而 言 ， 不 是 就 素数 本 身 的 值 而 言 ) 方法 来 测试 一 个 
mn 位 数 是 否 素数 ， 就 可 以 随机 挑选 数字 ， 测 试 这 些 数字 ， 当 找到 一 个 素数 时 停止 。 这 将 可 
能 给 出 发 现 素 数 的 多 项 式 时 间 的 拉 斯 - 维 加 斯 算法 ， 因 为 在 遇 到 一 个 n 位 素数 之 前 必须 测 
试 的 数 的 期 望 个 数 大 约 是 "。 例 如 ， 如 果 需 要 64 位 素数 ， 那 么 将 可 能 必须 测试 平均 大 约 64 
个 整数 ， 尽 管 当 运气 不 好 时 ， 可 能 必须 多 测试 说 不 定 多 少 个 数 。 不 幸 的 是 ， 在 11.5.4 节 将 
要 看 到 似乎 不 存在 有 保证 的 多 项 式 时 间 素数 测试 ， 尽 管 存在 多 项 式 时 间 的 蒙特 ， 卡 洛 算 
法 。 

.基于 RSA 的 密码 学 的 安全 性 依赖 于 通常 不 存在 分 解 因子 的 多 项 式 (就 密 钥 位 数 而 言 ) 方法 ， 

特别 是 不 存在 分 解 明知 是 恰好 两 个 大 素数 之 积 的 数 的 方法 。 如 果 能 够 证 明 素数 集合 是 NP 
完全 语言 ， 或 者 甚至 合 数 集合 是 NP 完全 的 ， 那 将 是 一 件 非常 令 人 快乐 的 事 。 因 为 如 此 一 
来 ， 一 个 多 项 式 的 因子 分 解 算法 就 将 证 明 ? = AP， 因 为 这 将 产生 所 有 这 些 语言 的 多 项 式 时 
间 测 试 。 在 11.5.5 节 将 看 到 素数 集合 与 合 数 集合 都 属于 WP。 因 为 这 两 个 集合 是 互补 的 ， 所 
以 假如 有 一 个 是 NP 完全 的 ， 就 将 得 出 Xp = co 一 XP ， 事 实 上 我 们 怀疑 这 个 等 式 的 真实 性 。 
另外 ， 素 数 集合 属于 RP 的 事实 意味 着 ， 假 如 证 明 素数 集合 是 NP 完全 的 ， 就 将 断定 RP = 
NWP， 但 这 是 另 一 种 不 太 可 能 的 情况 。 


11.5.2 同 余 算术 简介 


在 考虑 识别 素数 集合 的 算法 之 前 ， 应 当 介绍 关于 同 余 算 术 的 基本 概念 ， 也 就 是 说 ， 就 是 模 
某 个 整数 (常常 是 素数 ) 来 进行 的 普通 算术 运算 。 设 p 是 任意 整数 。 模 p 楚 数 是 0,1,…,P 一 1。 

可 以 定义 模 p 加 法 和 乘法 只 适用 于 这 组 p 整 数 ， 方 法 是 执行 普通 计算 然后 计算 把 结果 除 以 p 的 
余数 。 加 法 是 直截了当 的 ， 因 为 和 要 么 小 于 p (在 这 种 情况 下 无 需 做 任何 其 他 事情 )， 要 么 介 于 p 
和 2p 一 2 之 间 (在 这 种 情况 下 ， 减 去 p 就 得 出 在 0, 1, …, p 一 1 范围 内 的 整数 )。 同 余 加 法 服从 通常 
的 代数 定律 ， 即 它 是 交换 的 、 结 合 的 ， 并 且 具 有 单位 元 0。 减 法 仍然 是 加 法 的 逆 ， 并且 可 以 计算 
同 余 差 x 一 y， 方 法 是 照常 相 减 ， 如 果 结 果 小 于 0， 就 加 上 p。x 的 相反 数 ( 即 一 x) 等 于 0 一 x， 正如 
在 普通 算术 中 那样 。 因 此 ， 一 0 =0， 并 且 若 x* 冯 0， 则 一 x 等 于 p 一 x。 


例 11.21 假设 p = 13。 于 是 3 + 5 = 8 并 且 7 + 10 = 4。 为 了 看 出 后 者 ， 注 意 ， 在 普通 算术 中 7 + 
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10= 17，17 不 小 于 13。 因 此 减 去 13 得 出 正确 结果 4。 一 5 模 13 的 值 是 13 一 5 或 者 8。 模 13 的 差 11 一 4 是 
7, 但 是 差 4 一 11 是 6。 为 了 看 出 后 者 ， 在 普通 算术 中 4 一 11= 一 7， 所 以 必须 加 上 13 得 出 6。 a 


执行 模 p 乘 法 ， 就 是 当 作 普通 数 相 乘 ， 然 后 取出 结果 除 以 p 的 余数 。 乘 法 也 满足 通常 的 代 
数 定律 ， 即 它 是 交换 的 与 结合 的 ， 并 且 1 是 单位 元 ，0 是 零 元 ， 乘 法 在 加 法 上 分 配 。 但 是 ， 
除 以 非 零 值 则 需要 灵活 处 置 ， 甚 至 连 模 p 整 数 的 逆 的 存在 性 都 依赖 于 p 是 否 素数 。 一 般 说 来 ， 
如 果 x* 是 模 整 数 之 一 ， 也 就 是 说 0<x<p， 那 么 二 ! 或 1/x 就 是 使 得 x*y = 1 模 p 的 数 y， 假 如 y 存 在 
的 话 。 

例 11.22 “在 图 11-9 中 可 以 看 到 模 素数 7 的 非 零 整数 乘法 表 。 第 1 行 与 第 j 克 | 的 项 是 模 7 乘积 ij。 
注意 ， 每 个 非 零 整数 都 有 逆 ，2 和 4 互 闻 ,3 和 5 也 互 闻 ，1 和 6 都 是 自身 的 着。 也 就 是 说 ，2 x 4、 
3x5、1 x1、6x 6 都 等 于 1。 因 此 可 以 计算 x 除 以 任何 非 零 数 y 的 结果 x/y， 方 法 是 计算 y-! 然 后 做 
乘法 zx。 例如 ，3/4=3x4-1=3x2=6。 





图 11-9 模 7 乘法 图 11-10 模 6 乘法 


将 这 种 情况 与 模 6 乘 法 表 (图 11-10) 比较 一 下 。 首 先 注意 只 有 1 和 5 都 还 有 逆 ， 1 和 5 都 是 自 
身 的 着 。 其 他 数 没有 逆 。 并 且 存在 一 些 非 零 数 ， 这 些 数 乘积 为 0， 比 如 2 和 3。 普通 整数 算术 从 不 
会 发 生 这 种 情况 ， 就 连 模 素数 的 算术 也 不 会 发 生 这 种 情况 。 口 


在 以 素数 为 模 和 以 合 数 为 模 的 乘法 之 间 存 在 另 一 个 区 别 ， 这 个 区 别 对 于 素数 测试 来 说 非常 
重要 。 数 q 模 p 的 火 数 是 < 的 等 于 1 的 最 小 正 宕 次 。 下 面 是 一 些 有 用 的 事实 ， 这 里 将 不 予 证 明 。 

"如 果 p 是 素数 ， 那 么 o-' = 1 模 p。 这 个 命题 被 称 为 费 马 小 定理 。 。 

“a 的 模 素数 p 次 数 总 是 p 一 1 的 模 p 因 子 。 

“如 果 p 是 素数 ， 那 么 总 是 存在 某 个 a，a 模 p 次 数 为 p 一 1。 


例 11.23 ”再 考虑 一 下 图 11-9 中 的 模 7 乘法 表 。2 的 次 数 是 3， 因 为 22 = 4 并 且 23 = 1, 3 的 次 数 
是 6， 因 为 3: = 2，33 = 6，34 = 4，35 = 5 并 且 36 = 1。 通 过 类 似 的 计算 发 现 ，4 的 次 数 是 3 5 的 次 
数 是 6，6 的 次 数 是 2， 并 且 1 的 次 数 是 1。 口 


11.5.3 同 余 算术 计算 的 复杂 性 


在 继续 讨论 把 同 余 算 术 应 用 到 素数 性 测试 之 前 ， 还 必须 建立 关于 基本 运算 运行 时 间 的 某 些 
基本 事实 。 假 设 希 望 模 某 个 素数 P 计 算 ， 并 且 P 的 二 进 制 表示 长 度 为 n 位 ， 即 六 本 身 大 约 是 2r。 与 


通常 一 样 ， 计 算 的 运行 时 间 是 就 输入 长 度 n 而 言 ， 而 不 是 就 输入 “ 值 " p 而 刘 。 例 辣 , 计数 直到 p， 


日、 不 要 混 清 “ 费 马 小 定理 ”与 “ 费 马 大 定理 "， 后 者 断言 对 于 n>3， M+ = OAR, 
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这 样 做 花费 0(29 时 间 ， 因 此 以 n 来 度量 ， 包 含 p 步 的 任何 计算 都 将 不 是 多 项 式 时 间 的 。 
但 是 的 确 可 以 在 O(m) 时 间 内 在 典型 计算 机 或 多 带 图 灵机 上 把 两 个 数 模 p 相 加 。 回 忆 一 下 ， 只 
不 过 是 把 两 个 二 进 制 数 相 加 ， 如 果 结果 是 p 或 更 大 ， 就 碱 去 p。 同 样 地 ， 可 以 在 O(n”) 时 间 之 内 在 
计算 机 或 图 灵机 上 把 两 个 数 模 p 相 乘 。 用 普通 方法 把 两 个 数 相 乘 ,得 到 至 多 2 位 的 结果 ， 然 后 除 
以 p 取 余数 。 
计算 数 * 的 睾 需 要 灵活 处 置 ， 因 为 这 个 守 可 能 本 身 是 n 的 指数 。 正 如 将 要 看 到 的 那样 ， 一 个 
RES MEH Rap 一 1 次 矫 。 因 为 p 一 1 大 约 是 2*， 所 以 如 果 让 x 自 乘 p 一 2 次 ， 那 么 即使 每 次 乘法 
只 涉及 n 位 数 并 且 可 以 在 O(n”) 时 间 内 完成 ， 也 需要 0(2") 次 乘法 ， 总 时 间 将 是 O(n?2")， 这 个 时 间 
不 是 n 的 多 项 式 。 
幸运 的 是 ， 存 在 一 种 “递归 加 倍 ”技巧 ， 可 在 n 的 多 项 式 时 间 内 计算 wr-! (或 x 的 到 p 为 止 的 
任意 其 他 矫 次 ): 
1. 计 算 至 多 n 个 筹 x, Pot, ABB ot 一 1 为 止 。 每 个 值 都 是 在 O(n 时 间 内 计算 出 
的 n 位 数 ， 即 把 序列 中 前 一 个 值 平方 ， 所 以 总 工作 量 是 O(m3)。 
2. 求 出 p 一 1 的 二 进 制 表示 ， 比 如 说 p 一 1 = am-1…arao。 可 以 写成 
P—1 = ao + 2a; + 4a + +2" ayy 
其 中 每 个 a 都 是 0 或 1。 因 此 ， 


APH} = xot 2a tog ge Ng y 


这 是 那些 a = Y RER, ACEO) Re, HEE, 
所 以 可 以 在 Oo) 时 间 之 内 计算 出 这 "个 或 更 少 的 数 的 乘积 。 
因此 z" 的 全 部 计算 花费 CD) 时 间 。 


11.5.4 随机 多 项 式 素数 性 测试 


现在 ， 将 讨论 如 何 用 随机 化 计算 来 找到 大 素数 。 更 确切 地 说 ， 将 证 明 合 数 的 语言 属于 RP. 
实际 用 来 产生 "位 素数 的 方法 是 : 随机 挑选 一 个 n 位 数 ， 多 次 (比方 说 50 次 ) 应 用 蒙特 * 卡 洛 算 
法 来 识别 合 数 。 如 果 所 有 50 次 都 不 说 是 合 数 ， 那 么 真是 合 数 的 概率 就 不 超过 2-”。 因 此 可 以 相当 
安全 地 说 这 个 数 是 素数 ， 并 且 让 安全 操作 基于 这 个 事实 。 

这 里 将 不 给 出 完整 的 算法 ， 而 是 宁愿 讨论 除 极 个 别 情形 外 都 起 作用 的 思想 。 回 忆 一 下 ， 费 
马 小 定理 说 如 果 p 是 素数 ， 那 么 w'! 模 p 就 总 是 等 于 1。 还 有 一 个 事实 是 如 果 p 是 合 数 ， 并 且 存 在 x， 
使 得 z' 模 p 不 等 于 1， 那 么 对 于 1 到 p 一 1 范围 内 至 少 一 半 的 xz， 将 发 现 z 关 1。 

因此 ， 以 下 步骤 将 作为 用 来 识别 合 数 的 蒙特 卡 洛 算法 : 

1. 在 1 到 p 一 1 范围 内 随机 挑选 x。 

2. 计 算 wr' 模 p。 注 意 ， 如 果 p 是 n 位 数 ， 那 么 根据 11.5.3 节 末尾 的 讨论 ， 这 个 计算 花费 O(n’) 

时 间 。 

3. 如 果 w-!1 模 p， 就 接受 ，x 是 合 数 。 否 则 就 停机 不 接受 。 

如 果 p 是 素数 ， 就 有 xz = 1， 所 以 总 是 停机 不 接受 ， 这 是 蒙特 " 卡 洛 要 求 的 一 部 分 ， 即 要 求 
如 果 输入 不 属于 语言 ， 就 永 不 接受 。 对 于 几乎 所 有 的 合 数 ， 至 少 一 半 的 x 值 将 让 xz: 关 1) 所 以 在 
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这 个 算法 的 任何 一 次 执行 中 ;至 少 有 50% 机 会 接受 ， 这 是 蒙特 “ 卡 洛 算法 的 另 一 部 分 要 求 ; 

假如 不 是 因为 存在 少量 合 数 c， 使 得 对 于 在 1 到 c= 1 范围 内 的 多 数 x (具体 地 说 ;就 是 与 c 没 
有 公共 素 因子 的 那些 +) ， 有 = = 1 模 c， 那 么 到 现在 为 止 已 经 描述 的 内 容 就 将 是 合 数 集合 属于 RP 
的 证 明 。 这 些 合 数 称 为 卡 米 切 尔 数 (Carmichael number)， 需 要 用 另 二 种 更 复杂 的 测试 (这 里 不 
描述 这 种 测试 ) 来 探测 卡 米 切 尔 数 是 合 数 。 最 小 的 卡 米 切 尔 数 是 561。 也 就 是 说 ， 虽 然 561 = 3x 
11 x 17 显 然 是 合 数 ，' 但 可 以 证 明 对 于 不 能 被 I 或 17 整 除 的 所 有 ,x = 1 模 561; ,因此 将 断言 
下 面 这 个 定理 但 不 给 出 完整 证 明 : 


定理 11.24 合 数 集合 属于 RP, 口 





能 否 在 多 项 式 时 间 内 分 解 因子 ? 


注意 11.5.4 节 的 算法 可 能 只 说 一 个 数 是 合 数 ， 而 不 说 如 何 分 解 这 个 合 数 。 据 信 没 有 办 法 
只 花费 多 项 式 时 间或 者 甚至 只 花费 期 望 多 项 式 时 间 来 对 数 分 解 因子 ， 即使 利用 随机 性 也 不 
行 。 如 果 这 个 假设 不 正确 ， 那么 在 11.5.1 节 所 讨论 的 应 用 将 会 是 不 安全 的 和 不 能 使 用 的 。 
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11.5.5 非 确定 型 素数 性 测试 


现在 继续 讨论 另 一 个 关于 测试 素数 性 的 有 趣 而 重要 的 结果 素数 语言 属于 Xe mn co-Wz 。 因 
此 合 数 语言 ( 即 素数 语言 的 补 ) 也 属于 Np m co-Nr 。 这 个 结果 的 重要 性 在 于 ， 素 数 语言 或 合 数 
语言 是 NP 完全 的 ， 这 都 不 太 可 能 是 真 的 ， 因 为 假如 有 一 个 是 真 的 ， 那么 将 会 有 出 人 意料 的 等 
式 NP = co-NP 。 

一 部 分 是 容易 的 : 合 数 语言 显然 属于 Xe ， 所 以 素数 语言 属于 co-Xz 。 首先 证 明 这 个 事实 。 


定理 11.25 合 数 集合 属于 Np 。 
证 明 “识别 合 数 集合 的 非 确定 型 多 项 式 时 间 算法 如 下 : 
1 给 定 m 位 数 P; 猜测 至 多 n 位 长 的 因子 /。 但 是 不 要 选 1= 1 或 f= p。 这 部 分 是 非 确定 性 的 ， 的 
所 有 可 能 值 都 被 沿 着 某 个 选择 序列 猜 到 了 。 但 是 任何 选择 序列 花费 的 时 间 都 是 O(n)。 
2:p 除 以 f/， 并 且 验 证 余数 是 9。 若是 ， 则 接受 。 这 部 分 是 确定 性 的 ， 可 在 O(n) 时 间 内 在 多 
图 灵机 上 实现 。 
如 果 p 是 合 数 ， 那 么 p 必 须 有 至 少 一 个 除 1 和 p 之 外 的 因子 。 因为 非 确定 型 图 灵机 猜测 所 有 可 
能 的 不 超过 n 位 的 数 ， 所 以 它 将 在 某 个 分 支 中 猜测 到 f。 这 个 分 支 导致 接受 。 反 过 来 说 ， 非 确定 
型 图 灵机 接受 ， 就 蕴涵 着 发 现 了 p 的 除 1 和 p 本 身 外 的 因子 。 因此 所 描述 的 这 台 非 确定 型 图 灵机 接 
受 由 所 有 合 数 并 且 只 有 合 数组 成 的 语言 。 o 


用 非 确定 型 图 灵机 来 识别 素数 就 更 困难 了 。 虽然 能 够 猜测 一 个 数 不 是 素数 的 理由 【因子 )， 
然后 验证 猜测 正确 ， 但 是 如 何 “猜测 ”一 个 数 是 素数 的 理 图? 非 确定 型 多 项 式 时 间 算 法 是 基于 下 
面 这 样 的 事实 (断言 但 不 证 明 ) 的 : 如 果 p 是 素数 ， 那 么 在 1 和 p 一 1 之 间 存在 数 x， x 的 次 数 为 p 一 1。 














比如 在 例 11.23 中 观察 到 对 于 素数 7 来 说 ， 数 3 和 5 的 次 数 都 为 6。 
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虽然 利用 非 确定 型 图 灵机 的 非 确定 性 能 力 可 以 轻而易举 猜测 数 *， 但 并 不 是 立刻 就 清楚 如 何 
验证 x 的 次 数 为 p 一 1。 原 因 在 于 ， 如 果 直 接应 用 “次 数 ”的 定义 那么 需要 验证 ?, x, ww 都 
等 于 1。 这 样 做 需要 执行 p 二 3 次 乘法 ， 如 果 p 是 "位 数 ， 就 需要 至 少 2 时 间 。 

更 好 的 策略 是 利用 另 一 个 断言 而 不 证 明 的 事实 :x 模 p 的 次 数 是 p 一 1 的 因子 。 因 此 如 果 知道 
了 p 一 1 的 因子 9 那么 对 p 一 1 的 每 个 素 因子 q 验 证 <*"% 去 1 就 是 够 了 。 如 果 x 的 这 些 短 都 不 等 于 1， 
那么 * 的 次 数 就 必须 是 p 一 1。 这 些 测试 的 个 数 是 O(n)， 所 以 可 在 多 项 式 时 间 算法 中 完成 .不管 怎 
样 ,可 以 非 确定 性 地 猜测 p 一 1 的 素 因子 ， 并 且 

a) 验证 这 些 因子 的 乘积 确实 是 p 一 1。 

b) 利用 目前 一 直 正在 设计 的 非 确定 型 多 项 式 时 间 算 法 来 递归 地 验证 每 个 都 是 素数 。 

这 个 算法 的 细节 以 及 这 个 算法 是 非 确定 型 多 项 式 时 间 的 证 明 ， 都 在 下 面 定理 的 证 明 中 。 


定理 11.26 素数 集合 属于 WP。 
证 明 ”给 定 n 位 素数 p， 如 下 进行 。 首 先 如 果 n 不 大 于 2 ( 即 p 是 1，2 或 3) ， 就 直接 回答 问题 ， 
2 和 3 都 是 素数 而 1 不 是 。 否 则 就 : 

1. 猜测 因子 的 列表 (9,, 20°, 9)， 其 二 进 制 表示 总 长 至 多 2n 位 ， 且 没有 一 个 超过 n 一 1 位 。 允 
许 同一 个 素数 出 现 多 次 ， 因 为 p 一 1 的 因子 可 能 是 素数 的 大 于 1 次 矢 ， 比 如 ， 若 p = 13; Wp 
一 1 = 12 的 素 因 子 都 在 列表 (2, 2, 3) 里 。 这 部 分 是 非 确定 性 的 ， 但 每 个 分 支 花 费 O(m) 时 间 。 

2. 把 这 些 9 乘 到 一 起 并 验证 其 乘积 是 p 一 1。 这 部 分 花费 不 超过 OU) 时 间 并 且 是 确定 性 的 。 

3. 如 果 其 乘积 是 p 一 1， 就 利用 这 里 描述 的 算法 来 递归 地 验证 每 个 都 是 素数 。 

4. 如 果 这 些 9, 都 是 素数 ， 就 猜测 xz 的 值 并 对 任何 9 都 验证 zw7ow#1。 这 个 测试 保证 x 模 ?次 数 
是 p 一 1， 因 为 假如 不 是 ，x 的 次 数 就 必须 整除 至 少 一 个 (一 1)/gy， 但 刚刚 验证 过 不 是 这 样 。 
注意 ， 毫 无 疑问 对 于 任何 x* 的 智 ， 当 短 指 数 等 于 x 的 次 数 时 ， 这 个 吞 都 必定 等 于 1。 可 以 用 
11.5.3 节 描述 的 有 效 方法 来 求 螺 。 因 此 ， 至 多 有 k 次 (确实 不 超过 n 次 ) RE, RET LE 
On) 时 间 内 完成 ， 这 样 就 给 出 这 个 步骤 的 总 时 间 Oom)。 

最 后 ， 必 须 验证 这 个 非 确定 型 算法 是 多 项 式 时 间 的 。 除 步骤 (3) 以 外 ， 每 个 步骤 沿 任何 非 确 

定性 分 支 至 多 花费 O(z9) 时 间 。 虽 然 这 个 递归 


是 复杂 的 ， 但 是 可 以 把 递归 调用 想像 成 如 图 R 人 

11-l1 所 示 的 树 。 根 上 是 需要 验证 的 n 位 素数 p。 ii es a pee 

根 的 子女 是 qj， 这些 qj 是 猜测 的 p 一 1 的 因子 ， YN 了 pa 

也 必须 验证 这 些 因子 都 是 素数 。 每 个 下面 是 3E 

猜测 的 gj 一 1 的 因子 ， 也 必须 验证 这 些 因子 ， : eX, 

等 等 ， 直 到 开始 考虑 至 多 2 位 数 为 止 ， 这 些 数 

是 树叶 。 图 11-11 定理 11.26 的 算法 所 做 的 递归 调用 
形成 高 和 宽 都 至 多 为 n 的 树 


由 于 任何 顶点 的 子女 的 乘积 都 小 于 这 个 f 
MARY, MAE HEARE F ERE | RAPES Ap. ER T Le 


O 注意 ， 如 果 p 是 素数 ， 那 么 除 p = 3 的 平凡 情形 外 ，P--1 就 决 不 会 是 素数 。 原 因 在 于 ， 除 2 以 外 所 有 素数 都 是 
奇数 。 
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要 的 工作 量 ， 除 了 在 递归 调用 中 完成 的 工作 以 外 ， 对 于 某 个 常数 x 来 说 至 多 是 atlog2D4; 原因 在 
于 ， 可 以 确定 这 个 工作 量 的 阶 是 以 二 进 制 表示 该 值 所 需要 位 数 的 四 次 方 。 

因此 为 了 获得 任意 一 层 所 需 工作 量 的 上 界 ， 必 须 在 乘积 i … 至 多 为 p 的 约束 条 件 下 ， 把 和 
Zalloga( 让 * 极 大 化 。 由 于 四 次 方 函数 是 凸 的 ， 所 以 当 所 有 的 值 都 是 其 中 之 一 时 ， 最 大 值 出 现 。 
WR = p， 并 且 没有 其 他 的 那么 这 个 和 是 allogp):。 这 个 值 至 多 是 ant+， 因 为 n 是 p 的 二 进 制 表 
示 的 位 数 ， 因 此 logxp 至 多 是 n。 

结论 是 在 每 个 深度 上 需要 的 工作 量 都 至 多 为 O0i9。 因 为 至 多 有 n 层 ; 所 以 在 5 是 否 是 素数 的 
非 确定 型 测试 的 任何 分 支 中 ，O(n5) 工 作 量 就 足够 了 。 口 


现在 知道 素数 语言 及 其 补 都 属于 NP。 假如 其 中 一 个 是 NP 完全 的 ， 那 么 根据 定理 11.2， 就 
HEH NP = co- NP 的 证 明 。 


11.5.6 习题 


习题 11.5.1 模 13 计 算 以 下 各 式 : 
a)11+9, 
*#b)9 一 11。 
©) 5x8, 
*d) 5/8, 
e) 5, 
习题 11.5.2 ”在 11.5.4 节 中 我 们 断言 ， 对 于 在 1 到 560 之 间 x 的 大 多 数值 ，xso = 1 模 561。 挑 选 x 
的 一 些 值 并 验证 这 个 等 式 。 要 保证 先 用 二 进 制 表示 560， 再 对 /的 不 同 值 模 561 计 算 zy， 以 避免 559 
次 乘法 ， 就 像 在 11.5.3 节 中 讨论 过 的 那样 。 
习题 11.5.3 ”说 在 1 与 p 一 1 之 间 的 整数 x 是 模 p 二 次 利 余 ， 如 果 存在 某 个 在 1 与 p 一 1 之 间 的 整数 
Ys (ify? =x. 
* a) 模 7 的 二 次 剩余 都 是 哪些 ? 可 以 利用 图 11-9 中 的 表 来 帮助 回答 这 个 问题 。 
b) 模 13 的 二 次 剩余 都 是 哪些 ? 
!9) 证 明 : 如 果 p 是 素数 ， 那 么 模 p 二 次 剩余 的 个 数 是 (p 二 1)/2， 即 恰好 一 半 的 模 p 非 零 整数 是 
二 次 剩余 。 提 示 : 检查 从 部 分 (a) 和 (b) 得 出 的 数据 ， 是 否 看 出 一 种 模式 来 解释 为 什么 每 个 
二 次 剩余 都 是 两 个 不 同 的 数 的 平方 ? 当 p 是 素数 时 ， 一 个 整数 能 否 是 三 个 不 同 的 数 的 平 
方 ? 


11.6 小 结 


“XP AR: 如 果 一 个 语言 的 补 属于 Np， 那么 就 说 这 个 语言 属于 Xp 补 (co-NP). 所 有 2 语言 
的 确 都 属于 co-XP ， 但 可 能 存在 一 些 NP 语言 不 属于 co-WP ， 反 之 亦 然 具体 地 说 ，NP 完 
全 问题 似乎 都 不 属于 co-XP 。 

“25 R: 如 果 一 个 语言 被 一 台 确 定型 图 灵机 接受 ， 并 且 存在 多 项 式 p(n)， 使 得 在 长 度 为 的 输 
入 上 ， 这 台 图 灵机 决 不 使 用 超过 p(n) 个 带 单元 ， 那 么 就 说 这 个 语言 属于 25 (多 项 式 空间 )。 
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NPS 类 : 也 可 以 定义 一 台 非 确定 型 图 灵机 接受 的 语言 ， 这 人 台 图 灵机 使 用 的 带 受到 输入 长 度 
的 多 项 式 函 数 限制 。 把 这 些 语言 的 类 称 为 PS。 但 是 ， 萨 维 奇 定理 说 25= NP5 。 具 体 地 说 ， 
带 空 间 限制 p() 的 非 确定 型 图 灵机 ， 可 以 被 使 用 P(m) 空 间 的 确定 型 图 灵机 模拟 。 

。 随 机 化 算法 与 随机 化 图 灵机 : 许多 算法 卓有成效 地 利用 随机 性 。 在 真实 计算 机 上 ， 用 随机 
数 发 生 器 来 模拟 “ 抛 硬币 ”"。 如 果 增 加 一 条 上 面 写 有 随机 位 序列 的 带 ， 随 机 化 图 灵机 就 可 
以 完成 同样 的 工作 。 

。RP 类 : 如 果 存 在 一 台 多 项 式 时 间 的 随机 化 图 灵机 ， 当 输入 属于 这 一 语言 时 ， 这 人 台 图 灵机 
至 少 有 50% 机 会 接受 ， 当 输入 不 属于 这 一 语言 时 ， 这 人 台 图 灵机 决 不 会 接受 ， 那 么 这 个 语言 
就 在 随机 多 项 式 时 间 内 被 接受 。 把 这 样 的 图 灵机 或 算法 称 为 “蒙特 卡 洛 ” 的 。 

ZPP R: 如 果 一 台 随 机 化 图 灵机 总 是 正确 判定 一 个 语言 的 成 员 性 ， 虽 然 这 台 TM 最 坏 情况 
的 运行 时 间 可 能 大 于 任何 多 项 式 ， 但 期 望 运行 时 间 一 定 是 多 项 式 的 ， 那 么 这 人 台 图 灵机 接 
受 的 语言 就 属于 零 错 误 概率 随机 多 项 式 时 间 类 。 把 这 样 的 图 灵机 或 算法 称 为 “ 拉 斯 ， 维 
加 斯 ”的 。 

。 语 言 类 之 间 的 关系 : co-RP 类 是 RP 中 的 语言 之 补 的 集合 。 已 知 下 列 包含 关系 : PCZPPC 
(RPN co-RP)。 同 样 已 知 RP CNP ， 因 此 co-RP Cco-NP 。 

。 素 数 集合 与 NP : 素数 语言 及 其 补 ( 合 数 语 言 ) 都 属于 Nr。 这些 事实 使 得 素数 或 合 数 语 言 
都 不 太 可 能 是 NP 完全 的 。 由 于 存在 基于 素数 的 重要 密码 方案 ， 这 样 一 个 证 明 本 来 可 以 为 
这 些 方案 的 安全 性 提供 强 有 力 的 证 据 。 

“素数 集合 与 RP : 合 数 集合 属于 RP 。 测试 合 数 性 的 随机 多 项 式 时 间 算 法 常用 来 产生 大 素数 ， 
或 者 产生 那些 至 少 是 成 为 合 数 的 机 会 任意 小 的 大 数 。 
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索引 中 的 页 码 为 英文 原 书 页 码 ， 与 书 中 边栏 页 码 一 致 。 


A 


acceptance by empty stack (以 空 栈 方 式 接受 )， 
236~241, 254 

acceptance by final state (以 终结 状态 方式 接受 )， 
235~241, 255 

accepting state 【接受 状态 )，46，57，228，327 

accessible state (可 达 状 态 ) 45 

Ackermann's function ( 阿 克 曼 函数 )，391 

address, of memory (存储 器 的 地 址 )，365 

Adelman, L., 513, 525 

Agrawal, M., 525 

Aho, A.V., 36, 126, 224 

algebra (代数 )，87~88，115~121 

algorithm (算法 )， 见 recursive language 

alphabet (字母 表 ) ，28~29，134 

alphabetic character (字母 字符 )，110 

alphanumeric character (字母 数字 字符 )，110 

alt, of languages (语言 的 交叉 )，148，297 

ambiguous grammar (歧义 文法 )，207~213， 
255-256, 307, 413~415 

ancestor (#146), 184 

annihilator (%7t, PILF), 95, 117 

arithmetic expression (算术 表达 式 ) 23~26, 
210~212 

associative law (结合 律 )，115~116 

automaton (自动 机 )，26~28。 另 见 counter machine, 
deterministic finite automaton, finite automaton, 
nondeterministic finite automaton, pushdown 
automaton, stack machine, Turing machine 


Backus, J.W. (巴克 斯 )，224 
balanced parentheses (匹配 括号 ) 194~195 
Bar-Hillel, Y.169, 314, 422 ? 


basis (MR), 19, 22~23 

blank (25H), 326-327, 353 

block, of a partition (划分 的 块 )，162 

body (f), 173 

boolean expression (布尔 表达 式 )，438~440，448。 
另 见 quantified boolean formula 

Borosh, 1.1.481 

bottom-of-stack marker ( 栈 底 标记 ) 357 


C 


Cantor, D.C., 224, 442 

Carmichael number ( 卡 米 切 尔 数 )，518 

CFG (上 下 文 无 关 文 法 )。 见 context-free grammar 

CFL (上 下 文 无 关 语言 )。 见 context-free language 

character class (字符 类 )，109 

child (Fe, FHA), 184 

Chomsky, N. (Fug), 1, 193, 224, 272, 
442 

Chomsky normal form ( 乔 姆 斯 基 范式 ) 272~275, 
301 

Church, A. (E2), 326, 374 

Church-Turing thesis ( 丘 奇 一 图 灵 论 题 )，326 

clause ( 子 句 )，448 

clique problem, ( 团 问题 )，473，476 

closure ( 闭 包 )，87, 89，104~105，110，118， 
199，290，392，437。 另 见 e-closure 

closure property (封闭 性 )，131。 另 见 alt，of langua- 
ges, closure, complementation, concatenation, 
cycle, of a language, derivative, difference, of 
languages, homomorphism, init, of a language, 
intersection, inverse homomorphism, max, of 
a language, min, of a language, partial- 
removal operation, permutation, of a language, 
quotient, reversal, shuffle, of languages, 
substitution, union i 
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CNF ( 合 取 范式 )， 见 conjunctive normal form 

Cobham, A., 481 

Cocke, J., 304, 314 

code, for Turing machine (图 灵机 代码 )，379~380 

coloring problem (着 色 问 题 )，474~475 

commutative law (交换 律 )，14，115~116 

complementation ( 补 )，134~135，294，385~387， 
397, 399, 437 

composite number ( 合 数 )，513 

computer (计算 机 )，322，362~370 

concatenation (连接 )，30，84，88~89，97，104， 
116~117, 199, 290, 392, 437 

conclusion (结论 ) 6 

conjunctive normal form (AWER), 448, BR 
CSAT 

co-NP (NHS), 483~486, 521 

containment, of languages (语言 的 包含 )，417 

context-free grammar (上 下 文 无 关 文 法 ) 4, 
171~183, 243~251, 299~301 

context-free language (上 下 文 无 关 语言 )，179， 
254~255 

contradiction, proof by ( 归 雇 证明 ( 反 证 法 ))， 
16~17 

contrapositive ( 逆 否 命题 ) 14~16 

converse ( 逆 命 题 ) 16 

Cook, S.C. ( 库 克 )，1，436，481~482 

Cook's theorem ( 库 克 定理 )，440~446 

co-RP (RP 补 )，510，512 

countable set (可 数 集合 )，318 

counter machine (计数 器 机 器 ) 358~361 

counterexample 【反例 ) 17~19 

cryptography (密码 学 )，484，513 

CSAT ( 合 取 范式 可 满足 性 问题 )，448~456，473 

cycle，of a language (语言 的 环 )，148，297 

CYK algorithm (CYK 算 法 )，303 一 307 


D 


dead state ( 死 状态 ) 67 

decidability (可 判定 性 )，5。 另 见 undecidable 
problem 

decision property (判定 性 质 ) ， 见 emptiness test, 
equivalence, of languages, membership test 

deductive proof (演绎 证 明 )，6-17 


ô (转移 函数 ) ， 见 transition function 

Ô (扩展 转移 函数 ) ， 见 extended transition function 

DeMorgan’s law ( 德 .摩根 律 ) 450 

derivation (推导 ) 176~177, 185~187, 191~193, 
另 见 leftmost derivation, rightmost derivation 

derivative ($8), 148 

descendant (后 代 )，184 

deterministic finite automaton (确定 型 有 穷 自动 机 ) ， 
45~55, 60~65, 67, 70~71, 78~79, 93~102, 
151~153 

deterministic pushdown automaton (确定 型 下 推 自动 
机 )，252~257 

DFA (确定 型 有 穷 自动 机 ) ， 见 deterministic finite 
automaton 

DHC (有 向 哈密 顿 回路 问题 )， 见 directed Hamilton- 
circuit problem 

diagonalization (对 角 化 )，378，380~381 

difference，of languages (语言 的 差 )，138~139，294 

digit (数字 )，110 

directed Hamilton-circuit problem (有 向 哈密 顿 回路 
问题 )，465~471，473 

distinguishable states (可 区 分 状态 )，156，158 

distributive law (分 配 律 )，14，116~117 

document type definition (文档 类 型 定义 )， 见 DTD 

dominating-set problem (支配 集 问题 )，476 

dot (点 )，108。 另 见 concatenation 

DPDA (确定 型 下 推 自动 机 )， 见 deterministic 
pushdown automaton 

DTD (文档 类 型 定义 )，171，194，200~205 

dynamic programming (动态 规划 ) 304 


E 


electronic money (电子 货币 )，38 

emptiness test ( 空 性 测试 )，153~154，302~303 

empty language ( 空 语 言 )，31，88，97，103，116， 
118，394 一 396 

empty stack ( 空 栈 ) ， 见 acceptance by empty stack 

empty string (2548), 29, 88, 103, 116, 118 

endmarker (末端 标记 ) 359, 362 

e (ZR), WEmpty string 

e-closure (eht), 74 

ENFA (e-NFA), 72~79, 98, 103~107, 152~153 

production (产生 式 )，261，265~268 
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e-transition (ef4f$), 72, 77~78, 225 

equivalence, of boolean expressions (布尔 表达 式 的 
等 价 性 )，449 

equivalence, of languages (语言 的 等 价 性 )， 
159~160, 307, 407~408 

equivalence, of regular expressions (正则 表达 式 的 
等 价 性 )，118~121 

equivalence, of sets (集合 的 等 价 性 )，14，16 

equivalence, of states (状态 的 等 价 性 )，155~158 

Even, S., 525 

Evey, J, 260 

exact-cover problem (恰当 覆盖 问题 )，476 

exponential time (指数 时 间 )，427 

exponentiation (等 ) 517 

expression (表达 式 ) ， 见 arithmetic expression, 
Tegular expression 

extended transition function (扩展 转移 函数 ) , 
49~51, 53, 58, 75~76 

extensible markup language (可 扩展 标记 语言 )， 见 
XML 


F 


factor (因子 )，210 

factorization (因子 分 解 )，513，518 

false positive/negative ( 取 伪 / 弃 真 ) 508~509 

feed back arc problem (反馈 边 问题 )，476 

Fermat's last theorem ( 费 马 大 定理 )，316~317 

Fermat's thorem ( 费 马 定理 )，516 

final state (终结 状态 ) 见 acceptance by final state, 
accepting state 

finite automaton (有 穷 自动 机 )，2~4，37~45，92， 
234，322。 另 见 deterministic finite automaton 

finite control (有 穷 控 制 )， 见 state 

finite set (有 穷 集合 )，8~9，346 

firehouse problem (消防 站 问题 )，476 

Fischer, P.C. ,260, 374 

Floyd, R.W., 224, 422 

for all (所 有 )， 见 quantifier 


G 


Garey, M.R. 481~482 
Generating symbol (产生 符号 ) 262, 264 
Ginsburg, S. 169, 314, 422 


Gischer, J. L. ,125~126 

givens (前 提 )， 见 hypothesis 

Gödel, K. ( 哥 德 尔 )，325，374 

grammar (文法 )， 见 ambiguous grammar, context- 
free grammar, LR(k) grammar, right-linear 
grammar 

graph, ofa function (函数 的 图 )，336 

Greibach normal form (格雷 巴赫 范式 )，277~279 

Greibach, S.A. (格雷 巴赫 )，314 

grep (正则 表达 式 全 局 搜索 及 打印 (一 种 UNIX 命 
4)), 11, 123 

Gross, M. ( 格 罗斯 )，224 


H 


half, of a language (语言 的 一 半 ) ， 见 partial- 
removal operation 

halting, of a Turing machine (图 灵机 停机 ) ， 
334~335, 390 

Hamilton-circuit problem (My 49/5] Bf fa] Mil) , 
431~432, 465, 471~473, J Wdirected 
Hamilton-circuit problem 

Hamilton-path problem (哈密 顿 通路 问题 )，477 

Hartmanis, J., 169, 374, 481~482, 525 

HC (哈密 顿 回路 问题 ) ， 见 Hamilton-circuit problem 

head ( 头 )，173 

Hilbert, D. ( 希 尔 伯 特 )，325 

Hochbaum, D.S., 481~482 

homomorphism ( 同 态 )，140~142，290，392。 另 
见 inverse homomorphism 

Hopcroft, J.E., 169, 525 

HTML ( 超 文本 标记 语言 )，197~200 

Huffman, D.A., 83, 169 

hypothesis (假设 ， 前 提 )，6 


ID (瞬时 描述 ) ， 见 instantaneous description 

idempotent law (等 等 律 )，117~118 

identity (单位 元 )，95，115 

if-and-only-if proof ( 当 且 仅 当 证 明 ( 充 要 性 证 明 ))， 
11~13, 181 

if-else structure (if-else 结 构 )，195~196 

incompleteness theorem 【不 完全 性 定理 )，325 
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independent-set problem (独立 集 间 题 )，459~463， 
473 

induction principle (归纳 原理 )，20 

inductive proof (归纳 证 明 )，19~28 

inductive step〈 归 纳 步 又 )，19，22~23 

infinite set (HAMA), 8 

inherently ambiguous language (固有 歧义 语言 )， 
213~215, 307 

init, of a language 《语言 的 初段 )，148，297 

initial state (初始 状态 ) ， 见 start state 

input symbol (输入 符号 ) 45, 57, 227, 232, 
326~327, 335 

instantaneous description (瞬时 描述 ) 230~233, 
327~330 

instruction cycle (指令 周期 )，366~367 

integer (整数 )，22 

interior node (内 部 节点 ) ，183~184 

intersection (38), 14, 122, 136~138, 291~294, 
307, 391, 416~417 

intractable problem ( 难 解 问题 )，1~2，5，368， 
425~426。 另 见 NP-complete problem 

inverse homomorphism ( 逆 同 态 ) 142~144, 
295-297，392，437 

IS (独立 集 问题 )， 见 independent-set problem 


J 
Johnson, D.S., 481~482 
K 


Karp, R.M. (R$), 436, 463, 481~482, 524~525 
Kasami, T., 304, 314 ~ 

Kayal, N., 525 

Kernighan, B., 316 

Kleene closure ( 克 林 闭 包 )，316 见 closure 
Kleene，S.C，( 克 林 )，125~126，169，374 
knapsack problem (背包 问题 )，476 

Knuth, D.E., 260, 502, 525 

Kruskal, J.B.Jr.( 克 重 斯 卡尔 )，428 

Kruskal's algorithm ( 克 重 斯 卡尔 算法 )，428 


E 


language (WÈ), 14, 30~31, 33, 52, 59, 150, 


179, 234~236, 334, 504~506, 另 见 context- 
free language, empty language, inherently 
ambiguous language, recursive language, 
recursively enumerable language, regular 
language, universal language 

Las-Vegas Turing machine ( 拉 斯 - 维 加 斯 图 灵机 )， 
510 

leaf ( 叶 节点 ， 树 叶 )，183-~184 

leftmost derivation (最 左 推导 );177~179,，186~191， 
212~213 

left-sentential form ( 左 句 型 )，186~191，243~244， 

length, ofa string (MHIKEE), 29 

Lesk, M., 126 

Levin, L. A., 481~482 

Lewis, P.M. II, 525 

Lex (一 种 词法 分 析 器 生成 工具 ) 111~112, 123 

lexical analyzer (词法 分 析 器 )，2，86，110~112 

linear integer programming problem (整数 线性 规划 
问题 )，476 

literal (文字 )，448 

LR(K) grammar (LR(K)X#:), 260 


M 


markup language (标记 语言 )， 见 HTML，XML 

max, of alanguage (语言 的 极 大 元 )，148，297 

McCarthy, J., 84 

McCulloch, W.S., 83 

McNaughton, R., 125~126, 169~170 

Mealy, G.H., 83 

membership test (成 员 性 测试 )，154~155，303~307 

Miller, G.L., 525 

min, ofa language (语言 的 极 小 元 )，148，297 

minimization, of DFA's (DFA 的 最 小 化 )，160~165 

minimum-weight spanning tree (最 小 生成 树 ) , 
427~428 

Minsky, M.L., 374, 422~423 

modified Post’s correspondence problem (修改 过 的 
波斯 特 对 应 问题 )，404~412 

modular arithmetic ( 同 余 算术 ) ，514-~517 

modus ponens ( 假 言 推理 )，7 

Monte-carlo Turing machine (蒙特 卡 罗 图 灵机 )， 
506-507 1 

Moore, E.F., 84, 169 
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Moore's law (摩尔 律 )，1 

Motwani, R., 525 

move (移动 )， 见 transition function 

multihead Turing machine (多 头 图 灵机 )，352 
multiple tracks (多 道 )， 见 Track 

multiplication (乘法 )，369，515~516 

multistack machine (多 堆栈 机 器 )， 见 stack machine 
multitape Turing machine (多 带 图 灵机 )，334~347 
mutual induction (77444), 26~28 


N 


natural language (自然 语言 )，193 

Naur, P. (诺尔 )，224 

NC (顶点 覆盖 问题 )， 见 node-cover problem 

NFA ( 非 确定 型 有 穷 自 动机 ) ， 见 nondeterministic 
finite automaton 

node-cover problem (顶点 覆盖 问题 )，463~464，473 

nondeterministic finite automaton ( 非 确定 型 有 穷 自动 
机 )，55~70，96，151，164。 另 见 e-NFA 

nondeterministic polynomial space ( 非 确定 型 多 项 式 
空间 )， 见 Ne5 

nondeterministic polynomial time ( 非 确定 型 多 项 式 
时 间 )， 见 XP 

nondeterministic Turing machine ( 非 确定 型 图 灵机 ) , 
347~349，487，490~491，507。 另 见 Np，NP5 

nonrecursive language ( 非 递归 语言 )， 见 undecidable 
problem 

nonrecursively enumerable language ( 非 递归 可 枚 举 
语言 )， 见 recursively enumerable language 

nonterminal ( 非 终结 符 )， 见 variable 

normal form (范式 )，261~273 

NP ( 非 确定 型 多 项 式 时 间 类 ) ，431，435，437， 
484, 492~493, 511~512, 519~521 

NP-complete problem (NP 完全 问题 )，434~436、 
458~459，462，484~486。 另 见 clique problem, 
coloring problem, CSAT, dominating-set 
problem, edge-cover problem, exact-cover 
problem, firehouse problem, Hamilton-circuit 
problem, Hamilton-path problem, independent- 
set problem, knapsack problem, linear integer 
programming problem, node-cover problem, 
satisfiability problem, subgraph isomorphism 
problem, 3SAT, traveling salesman problem, 


unit-execution-time-scheduling problem 
NP-hard problem ( NP 难 问题 ) 435. 5 
intractable problem 
NPS ( 非 确定 型 多 项 式 空间 类 )，487,，491~492 
nullable symbol (可 空 符号 ) 265~266, 304 


o 


observation (事实 )，17 
Oettinger, A.G., 260 

Ogden, W., 314 

Ogden's lemma ( 奥 格 登 引 理 )，286-287 


P 


P (确定 型 多 项 式 时 间 类 ) ，426，435，437， 
492~493,511~512 

palindrome ( 回 文 )，172，179~180 

Papadimitriou, C.H., 525 

Parent ( 父 节点 ， 父 母 )，184 

parse tree (语法 分 析 树 )，183~191，207~208，280。 
另 见 Tree 

parser (语法 分 析 器 )，171，193~196 

partial function (部 分 函数 ( 偏 函 数 ))，336 

partial solution，to PCP (PCP 的 部 分 解 )，404 

partial-removal operation (部 分 删除 运算 ) ，148~149， 
297 

partition (划分 )，162 

Paull, M.C., 314 

PCP (波斯 特 对 应 问题 )， 见 Post's correspondence 
problem 

PDA (下 推 自动 机 ) ， 见 pushdown automaton 

Perles, M., 169, 314, 422 

permutation, of a language (语言 的 置换 ) 298 

pigeonhole principle (A$ iL JHB), 66 

Pitts, W., 83 

polynomial space (多 项 式 空间 ) 483, 488~492, 
另 见 25 

polynomial time (多 项 式 时 间 )，5。 另 见 2，RP，ZPP 

polynomial-time reduction (多 项 式 时间 归 约 )， 
425-426，433-435，492 

pop (弹出 )，226 

Post, E. (波斯 特 )，374，422~423 

Post’s correspondence problem (波斯 特 对 应 问题 ) , 
401~412 
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Pratt, V. R., 524-525 

precedence, of operators (运算 符 的 优先 级 )， 
90~91, 209 

prefix property (前 缀 性 质 )，254 

prime number (素数 )，484，512~521 

problem (问题 )，31~33，429 

product construction (乘积 构造 法 )，136~138 

production (#*4:3€), 173, 3 Sile-production, unit 
production 

proof (WEW), 5~6, 12, % "contradiction, proof 
by, deductive proof, if-and-only-if proof, 
inductive proof 

property, of languages (语言 的 性 质 ) 397 

protocol (协议 )，2，39~45 

PS (多 项 式 空间 类 )，469，487，491~492 

PS-complete problem (PS 完全 问题 )，492~493。 另 
见 quantified boolean formula, 
switching game 

pseudo-random number ( 伪 随 机 数 ) 501 

public-key signature (2: 4% 4), 513~514 

pumping lemma (3315), 128~132, 279~287 

push (JEA, ÆA), 226 

pushdown automaton (下 推 自动 机 )，225~252,，299。 
另 见 deterministic pushdown automaton, stack 


Shannon 


machine 
Q 
QBF ( 带 量词 的 布尔 公式 ) ， 见 quantified boolean 
formula 


quadratic residue (二 次 剩余 ) 522 

quantified boolean formula ( 带 量词 的 布尔 公式 )， 
493~501 

quantifier (量词 )，10，130 

quicksort (快速 排序 ) 502 

quotient ( 商 )，147，297 


R 


Rabin, M.O., 84, 524~525 

Raghavan, P., 525 

randomized Turing machine (随机 化 图 灵机 ) , 
503~506 

random-number generator (随机 数 发 生 器 ) 483, 
501 

random-polynomial language (随机 多 项 式 语 言 ) , 


见 RP 

reachable symbol (可 达 符 号 ) 262, 264~265, 304 

recursive definition 《递归 定义 )，22~23 

recursive function (递归 函数 )，390~391 

recursive inference (递归 推理 ) ,175~176, 186~188, 
191~193 

recursive language (递归 语言 )，334~335，383~387， 
488 

recursively enumerable language (递归 可 枚 举 语言 )， 
334, 378-389, 393~394 

reduction (3#J), 321~324, 392-394, 53 i_polynomial- 
time reduction 

register (寄存 器 ) 365 

regular expression (正则 表达 式 )，4~5，85~123， 
154, 501 

regular language (正则 语言 )，182，253~254，291， 
294，417。 另 见 deterministic finite automaton, 
nondeterministic finite automaton, pumping 
lemma, regular expression 

reversal ( 反 转 )，139~140，290，437 

Rice, H.G. ( 莱 斯 )，422~423 

Rice's theorem ( 莱 斯 定理 )，397~399 

Riemann's hypothesis (Wit), 525 

right-linear grammar ( 右 线性 文法 ) 182 

rightmost derivation (最 右 推导 ) ，177~179， 
186-187，191 

right-sentential form ( 右 句 型 )，180，186~187，191 

Ritchie, D., 316 

Rivest, R.L., 513, 525 

root (fi), 184~185 

Rose, G.F., 169, 314, 422 

RP (随机 多 项 式 语言 ) 483~484, 502, 506~512, 
517~518 

RSA code (RSA##3), 513 

Rudich, S., 374 

running time (运行 时 间 )， 见 time complexity 


S 


SAT (可 满足 性 问题 ) ， 见 satisfiability problem 

satisfiability problem (可 满足 性 问题 ) 438~446, 
473, 485 

Savitch, W.J. (PE), 525 

Saxena, N., 525 

Savitch’s theorem (PRE), 491 
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Saxena, N., 525 

scheduling problem (调度 问题 ) 见 unit-execution- 
time-scheduling problem 

Scheinberg, S., 314 

Schutzenberger, M. P., 260, 422 

Scott, D., 84 

Seiferas, J.I., 169~170 

semi-infinite tape ( 半 无 穷 带 )，352~355 

sentential form ( 句 型 )，180。 另 见 left-sentential 
form, right-sentential form 

set former (集合 表示 法 )，32 

Sethi, R., 126, 224 

Shamir, A., 513, 525 

Shamir, E., 169, 314, 422 

Shannon, C.E. (香农 )，84 

Shannon switching game (香农 开关 游戏 ) 501 

shifting-over (平移 )，343 

shuffle，of languages (语言 的 重组 )，297~298 

(输入 字母 表 )， 见 input symbol 

size, of inputs (输入 的 规模 )，429 

Spanier, E.H., 169 

spanning tree (生成 树 )，427。 另 见 minimum- 
weight spanning tree 

stack (HEH), 225~226, 490 

stack machine (堆栈 机 器 )，355~358 

stack symbol (堆栈 符号 ) 228, 232 

star ( 星 号 )，88， 另 见 closure 

start state (初始 状态 )，46，57，228，327 

start symbol (初始 符号 )，173，228 

state (状态 ) 2~3, 39, 45, 57, 226~228, 232, 
327, 335, 337~339, 364, 53 ildead state 

state elimination (状态 消除 )，98~103 

Steams，R. E.，169，374，481~482，525 

Stockmeyer, L.J., 524~525 

storage device (存储 设备 ) ，362~363 

string (H), 29-30, 49, 178, 379 

string search ( 串 搜索 ) ， 见 Text search 

structural induction (结构 归纳 法 )，23~26 

subgraph isomorphism problem ( 子 图 同 构 问 题 )， 
475 

subroutine ( 子 程序 ) 341~343 

subset construction ( 子 集 构造 )，60~65 

substitution (代入 )，287~290 

switching circuit (开关 电路 ) 127 


symbol (符号 ) ， 见 generating symbol, input symbol, 
nullable symbol, reachable symbol, stack 
symbol, start symbol, tape symbol, terminal 
symbol, useless symbol 

symbol table (符号 表 )，285 

syntactic category (语法 范畴 ) ， 见 Variable 


T 


tail (JÆ), 243 

tape (4#), 326 

tape head (带头 )，326 

tape symbol ( 带 符号 ) 327, 335, 364 

Tarjan, R.E., 525 

tautology problem ( 重 言 式 问题 )，485 

term (项 )，211 

terminal symbol (终结 符号 )，173，178 

text search (文本 搜索 )，68~71，86，112~114 

theorem (定理 )，17 

there exists (存在 )， 见 quantifier 

Thompson，K.，126 

3SAT (三 元 可 满足 性 问题 )，447，456~458，473 

time complexity (时 间 复 杂 度 ) ，346~347，368~370， 
426, 516~517 

token (记号 )，110~112 

track ( 道 )，339~341 

transition diagram (转移 图 )，48，229~230， 
331~334 

transition function (转移 函数 )，45，57，228，327。 
另 见 extended transition function 

transition table (转移 表 ) ，48~49 

transitive law (传递 律 )，161 

traveling salesman problem ( 货 郎 问题 )，419~433， 
472-473 

tree (ft), 23-25, A lilparse tree 

Treybig, L.B., 481 

trivial property (平凡 性 质 ) 397 

truth assignment (赋值 ) 438~439 

TSP ( 货 郎 问题 )， 见 traveling salesman problem 

Turing, A.M. (图 灵 )，1，326，374~375，422~423， 

Turing machine (图 灵机 ) 315, 324~337, 426, 
487~488。 另 见 code, for Turing machine, halting, 
of a Turing machine, Las-Vegas Turing machine, 
monte-carlo Turing machine, multihead Turing 
machine, multitape Turing machine, nondeter- 
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ministic Turing machine, randomized Turing 
machine, recursively enumerable language, two- 
dimensional Turing machine, universal Turing 
machine 
two-dimensional Turing machine (二 维 图 灵机 )，352 
2SAT (二 元 可 满足 性 问题 )，448，458 


U 


Ullman, J.D., 36, 126, 224, 481~482, 525 

unambiguous grammar (无 歧义 文法 )， 见 ambiguous 
grammar 

undecidable problem (不 可 判定 问题 )，307，318， 
377~378, 383~384, 393, 395~396, 399, 
412~418。 另 见 Post's correspondence problem, 
Rice's theorem, universal language 

union (并 ), 14, 86, 88, 97, 104, 110, 115~118, 
134, 199, 290, 392, 437 

unit pair (单位 对 )，269 

unit production (单位 产生 式 )，262，268~272 

unit-execution-time-scheduling problem (单位 执行 时 
间 调度 问题 )，476 

universal language (通用 语言 )，387~390 

universal Turing machine (通用 图 灵机 )，364， 
387~389 

UNIX regular expressions (UNIX 正 则 表达 式 )， 
108~110 


useless symbol (无 用 符号 ) 261~265 
V 

variable ( 变 元 )，173，178 
W 

word ( 字 )， 见 String 

world-wide-web consortium (万 维 网 大 会 )，224 
X 


XML (可 扩展 标记 语言 )，171，200。 另 见 DTD 
Y 


YACC (一 种 语法 分 析 器 生成 工具 (Yet Another 
Compiled Compiler 的 缩写 )) ，196~197，210， 
260 

Yamada, H., 125~126 

Yes-no problem ("是否 ”问题 )，462 

yield (产物 )，185 

Younger, D.H., 304, 314 


Z 


zero-error probabilistic polynomial language ( 零 错误 
概率 多 项 式 语言 )， 见 Z2p 

ZPP ( 零 错误 概率 多 项 式 语言 )，483~484，502， 
519-512 
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